PySparkでのPandaのvalue_counts（）に相当するものは何ですか？

Question

私は次のpython/pandasコマンドを持っています：

df.groupby('Column_Name').agg(lambda x: x.value_counts().max()

DataFrameGroupByオブジェクトのすべての列の値のカウントを取得しています。

PySparkでこのアクションを実行するにはどうすればよいですか？

Tanjin · Answer

それは多かれ少なかれ同じです：

_spark_df.groupBy('column_name').count().orderBy('count') _

GroupByでは、_,_で区切られた複数の列を持つことができます

たとえばgroupBy('column_1', 'column_2')

Baronial_G · Answer

groupByがgroupbyキーを受け取る順序のようなものがありますか（左から右、右から左など）。グループ化の順序を理解しようとする（それがどのように行われるか）。たとえば、最初に来る国、州、町を持っている場合、グループキーの順序で指定しますか、それとも単に階層に従ってグループ化しますか