web-dev-qa-db-ja.com

pysparkは、ipythonノートブックの水平スクロールでテーブルとしてデータフレームを表示します

a _pyspark.sql.DataFrame_はDataFrame.show()で乱雑に表示します-スクロールの代わりに行が折り返されます。

enter image description here

_pandas.DataFrame.head_ enter image description here

これらのオプションを試しました

_import IPython
IPython.auto_scroll_threshold = 9999

from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"
from IPython.display import display
_

しかし運はありません。スクロールは、Atomエディターでjupyterプラグインを使用して使用すると機能します。

enter image description here

15
muon

これは回避策です

_spark_df.limit(5).toPandas().head()
_

ただし、このクエリの計算負荷はわかりません。 limit()は高価ではないと思います。修正は歓迎します。

15
muon

以下のli'l関数を作成しましたが、正常に動作します。

def printDf(sprkDF): 
    newdf = sprkDF.toPandas()
    from IPython.display import display, HTML
    return HTML(newdf.to_html())

sparkクエリで直接使用することも、任意のsparkデータフレームで使用することもできます。

printDf(spark.sql('''
select * from employee
'''))
0
Mbhatt