sparkデータフレームからn行を取得してtoPandas（）に渡します

Question

私はこのコードを持っています：

l = [('Alice', 1),('Jim',2),('Sandra',3)] df = sqlContext.createDataFrame(l, ['name', 'age']) df.withColumn('age2', df.age + 2).toPandas()

正常に動作し、必要なことを行います。最初のn行のみを表示し、toPandas()を呼び出してpandasデータフレームを返すと仮定します。どうすればいいのですか？ take(n)を呼び出すことはできません。データフレームを返さないため、toPandas()に渡すことができないためです。

別の言い方をすれば、データフレームから上位n行を取得し、結果のデータフレームでtoPandas()を呼び出すにはどうすればよいですか？これは難しいとは思いませんが、私にはわかりません。

Spark 1.6.0を使用しています。

Neo · Accepted Answer

limit(n)関数を使用できます：

l = [('Alice', 1),('Jim',2),('Sandra',3)] df = sqlContext.createDataFrame(l, ['name', 'age']) df.limit(2).withColumn('age2', df.age + 2).toPandas()

または：

l = [('Alice', 1),('Jim',2),('Sandra',3)] df = sqlContext.createDataFrame(l, ['name', 'age']) df.withColumn('age2', df.age + 2).limit(2).toPandas()

Anton Protopopov · Answer

head でSpark DataFrameの最初の行を取得し、Pandas DataFrameを作成できます。

l = [('Alice', 1),('Jim',2),('Sandra',3)] df = sqlContext.createDataFrame(l, ['name', 'age']) df_pandas = pd.DataFrame(df.head(3), columns=df.columns) In [4]: df_pandas Out[4]: name age 0 Alice 1 1 Jim 2 2 Sandra 3

prossblad · Answer

それを試してみてください：

def showDf(df, count=None, percent=None, maxColumns=0): if (df == None): return import pandas from IPython.display import display pandas.set_option('display.encoding', 'UTF-8') # Pandas dataframe dfp = None # maxColumns param if (maxColumns >= 0): if (maxColumns == 0): maxColumns = len(df.columns) pandas.set_option('display.max_columns', maxColumns) # count param if (count == None and percent == None): count = 10 # Default count if (count != None): count = int(count) if (count == 0): count = df.count() pandas.set_option('display.max_rows', count) dfp = pandas.DataFrame(df.head(count), columns=df.columns) display(dfp) # percent param Elif (percent != None): percent = float(percent) if (percent >=0.0 and percent <= 1.0): import datetime now = datetime.datetime.now() seed = long(now.strftime("%H%M%S")) dfs = df.sample(False, percent, seed) count = df.count() pandas.set_option('display.max_rows', count) dfp = dfs.toPandas() display(dfp)

使用例は次のとおりです。

# Shows the ten first rows of the Spark dataframe showDf(df) showDf(df, 10) showDf(df, count=10) # Shows a random sample which represents 15% of the Spark dataframe showDf(df, percent=0.15)