web-dev-qa-db-ja.com

Spark前の行の値で新しい列をデータフレームに追加

Spark(Pyspark)で次のことを達成する方法を知りたい

初期データフレーム:

_+--+---+
|id|num|
+--+---+
|4 |9.0|
+--+---+
|3 |7.0|
+--+---+
|2 |3.0|
+--+---+
|1 |5.0|
+--+---+
_

結果のデータフレーム:

_+--+---+-------+
|id|num|new_Col|
+--+---+-------+
|4 |9.0|  7.0  |
+--+---+-------+
|3 |7.0|  3.0  |
+--+---+-------+
|2 |3.0|  5.0  |
+--+---+-------+
_

私は通常、次のようなものを使用して、データフレームに新しい列を「追加」します:df.withColumn("new_Col", df.num * 10)

ただし、新しい列にこの「行のシフト」をどのように実現できるかについてはわかりません。そのため、新しい列には前の行のフィールドの値が含まれます(例に示すように)。また、APIドキュメントには、インデックスによってDFの特定の行にアクセスする方法についての情報が見つかりませんでした。

任意の助けをいただければ幸いです。

32
Kito

次のようにlagウィンドウ関数を使用できます

from pyspark.sql.functions import lag, col
from pyspark.sql.window import Window

df = sc.parallelize([(4, 9.0), (3, 7.0), (2, 3.0), (1, 5.0)]).toDF(["id", "num"])
w = Window().partitionBy().orderBy(col("id"))
df.select("*", lag("num").over(w).alias("new_col")).na.drop().show()

## +---+---+-------+
## | id|num|new_col|
## +---+---+-------|
## |  2|3.0|    5.0|
## |  3|7.0|    3.0|
## |  4|9.0|    7.0|
## +---+---+-------+

しかし、いくつかの重要な問題があります:

  1. グローバル操作(他の1つまたは複数の列で分割されていない)が必要な場合は、非常に非効率的です。
  2. データを注文する自然な方法が必要です。

2番目の問題が問題になることはほとんどありませんが、最初の問題は契約を破ることができます。この場合、DataFrameをRDDに変換し、lagを手動で計算するだけです。例を参照してください:

その他の便利なリンク:

35
zero323