web-dev-qa-db-ja.com

PySpark 2.0 DataFrameのサイズまたは形状

PySparkでDataFrameのサイズ/形状を見つけようとしています。これを実行できる単一の関数は表示されません。

Pythonでできること

data.shape()

PySparkに同様の機能がありますか。これは私の現在のソリューションですが、要素1を探しています

row_number = data.count()
column_number = len(data.dtypes)

列数の計算は理想的ではありません...

47
Xi Liang
print((df.count(), len(df.columns)))
57
George Fisher

df.count()を使用して行数を取得します。

35
VMEscoli

これをコードに追加します。

def spark_shape(self):
    return (self.count(), len(self.columns))
pyspark.sql.dataframe.DataFrame.shape = spark_shape

その後、あなたはできる

>>> df.shape()
(10000, 10)

ただし、.count()は非常に大きなデータセットでは非常に遅くなる可能性があることを思い出してください。

7
Louis Yang

Sparkにはdata.shapeのような類似の関数はないと思います。ただし、len(data.columns)ではなくlen(data.dtypes)を使用します

2
Y.C.