web-dev-qa-db-ja.com

データフレーム内のレコード数をすばやく取得する

最大1,000万件のレコードを持つデータフレームがあります。すぐにカウントを取得するにはどうすればよいですか? df.countは非常に時間がかかっています。

14
HEMANTH KUMAR

とにかく時間がかかります。少なくとも初めて。

1つの方法は、データフレームをキャッシュすることです。そのため、カウント以外に、データフレームをさらに使用できます。

例えば

df.cache()
df.count()

後続の操作にはそれほど時間がかかりません。

10
Ravi R
file.groupBy("<column-name>").count().show()
1
Ahmed