web-dev-qa-db-ja.com

Spark Dataframeの最初の1000行を取得する方法はありますか?

randomSplit関数を使用して、開発目的で使用する少量のデータフレームを取得していますが、この関数によって返される最初のdfを取得するだけです。

val df_subset = data.randomSplit(Array(0.00000001, 0.01), seed = 12345)(0)

df.take(1000)を使用すると、データフレームではなく行の配列になりますので、それはうまくいきません。

Dfの最初の1000行を別のdfとして保存するより良い、簡単な方法はありますか?

58

探しているメソッドは 。limit です。

最初のn行を取得して、新しいデータセットを返します。この関数とheadの違いは、headは配列を返し、limitは新しいデータセットを返すことです。

113
Markon