web-dev-qa-db-ja.com

PySparkでのPandaのvalue_counts()に相当するものは何ですか?

私は次のpython/pandasコマンドを持っています:

df.groupby('Column_Name').agg(lambda x: x.value_counts().max()

DataFrameGroupByオブジェクトのすべての列の値のカウントを取得しています。

PySparkでこのアクションを実行するにはどうすればよいですか?

12
TSAR

それは多かれ少なかれ同じです:

_spark_df.groupBy('column_name').count().orderBy('count')
_

GroupByでは、_,_で区切られた複数の列を持つことができます

たとえばgroupBy('column_1', 'column_2')

9
Tanjin

groupByがgroupbyキーを受け取る順序のようなものがありますか(左から右、右から左など)。グループ化の順序を理解しようとする(それがどのように行われるか)。たとえば、最初に来る国、州、町を持っている場合、グループキーの順序で指定しますか、それとも単に階層に従ってグループ化しますか

0
Baronial_G