web-dev-qa-db-ja.com

Spark DataFrameの単一の列から複数の列を導出します

Dataframe内の単一の文字列列として解析可能な巨大なメタデータを持つDFがあり、それをColmnAでDFAと呼ぶことができます。

この列ColmnAを、ClassXYZ = Func1(ColmnA)という関数を介して複数の列に分割します。この関数は、複数の変数を含むクラスClassXYZを返します。これらの各変数は、ColmnA1、ColmnA2などの新しい列にマップする必要があります。

このFunc1を一度だけ呼び出すことで、これらの追加列を使用して1つのデータフレームから別のデータフレームにこのような変換を行い、すべての列を作成するために繰り返す必要はありません。

この巨大な関数を毎回呼び出して新しい列を追加する場合は簡単に解決できますが、それは避けたいものです。

正常に動作するコードまたは擬似コードをお知らせください。

ありがとう

サンジェイ

47
sshroff

一般的に、あなたが望むものを直接話すことはできません。 UDFは、一度に1つの列のみを返すことができます。この制限を克服する方法は2つあります。

  1. 複合型の列を返します。最も一般的な解決策はStructTypeですが、ArrayTypeまたはMapTypeも検討できます。

    import org.Apache.spark.sql.functions.udf
    
    val df = Seq(
      (1L, 3.0, "a"), (2L, -1.0, "b"), (3L, 0.0, "c")
    ).toDF("x", "y", "z")
    
    case class Foobar(foo: Double, bar: Double)
    
    val foobarUdf = udf((x: Long, y: Double, z: String) => 
      Foobar(x * y, z.head.toInt * y))
    
    val df1 = df.withColumn("foobar", foobarUdf($"x", $"y", $"z"))
    df1.show
    // +---+----+---+------------+
    // |  x|   y|  z|      foobar|
    // +---+----+---+------------+
    // |  1| 3.0|  a| [3.0,291.0]|
    // |  2|-1.0|  b|[-2.0,-98.0]|
    // |  3| 0.0|  c|   [0.0,0.0]|
    // +---+----+---+------------+
    
    df1.printSchema
    // root
    //  |-- x: long (nullable = false)
    //  |-- y: double (nullable = false)
    //  |-- z: string (nullable = true)
    //  |-- foobar: struct (nullable = true)
    //  |    |-- foo: double (nullable = false)
    //  |    |-- bar: double (nullable = false)
    

    これは後で簡単にフラット化できますが、通常はその必要はありません。

  2. RDDに切り替え、DFを再構築して再構築します。

    import org.Apache.spark.sql.types._
    import org.Apache.spark.sql.Row
    
    def foobarFunc(x: Long, y: Double, z: String): Seq[Any] = 
      Seq(x * y, z.head.toInt * y)
    
    val schema = StructType(df.schema.fields ++
      Array(StructField("foo", DoubleType), StructField("bar", DoubleType)))
    
    val rows = df.rdd.map(r => Row.fromSeq(
      r.toSeq ++
      foobarFunc(r.getAs[Long]("x"), r.getAs[Double]("y"), r.getAs[String]("z"))))
    
    val df2 = sqlContext.createDataFrame(rows, schema)
    
    df2.show
    // +---+----+---+----+-----+
    // |  x|   y|  z| foo|  bar|
    // +---+----+---+----+-----+
    // |  1| 3.0|  a| 3.0|291.0|
    // |  2|-1.0|  b|-2.0|-98.0|
    // |  3| 0.0|  c| 0.0|  0.0|
    // +---+----+---+----+-----+
    
64
zero323

関数の後に要素のシーケンスがあり、以下の例を与えると仮定します。

val df = sc.parallelize(List(("Mike,1986,Toronto", 30), ("Andre,1980,Ottawa", 36), ("jill,1989,London", 27))).toDF("infoComb", "age")
df.show
+------------------+---+
|          infoComb|age|
+------------------+---+
|Mike,1986,Toronto| 30|
| Andre,1980,Ottawa| 36|
|  jill,1989,London| 27|
+------------------+---+

このinfoCombでできることは、文字列の分割を開始して、次のように列を追加できることです。

df.select(expr("(split(infoComb, ','))[0]").cast("string").as("name"), expr("(split(infoComb, ','))[1]").cast("integer").as("yearOfBorn"), expr("(split(infoComb, ','))[2]").cast("string").as("city"), $"age").show
+-----+----------+-------+---+
| name|yearOfBorn|   city|age|
+-----+----------+-------+---+
|Mike|      1986|Toronto| 30|
|Andre|      1980| Ottawa| 36|
| jill|      1989| London| 27|
+-----+----------+-------+---+

お役に立てれば。

16
EdwinGuo

結果の列が元の列と同じ長さになる場合、 withColumn 関数を使用してudfを適用することにより、新しい列を作成できます。この後、元の列をドロップできます。例:

 val newDf = myDf.withColumn("newCol1", myFun(myDf("originalColumn")))
.withColumn("newCol2", myFun2(myDf("originalColumn"))
.drop(myDf("originalColumn"))

myFunは、次のように定義されたudfです。

   def myFun= udf(
    (originalColumnContent : String) =>  {
      // do something with your original column content and return a new one
    }
  )
5
Niemand

1つの列をフラット化する関数を作成し、udfと同時に呼び出します。

最初にこれを定義します:

implicit class DfOperations(df: DataFrame) {

  def flattenColumn(col: String) = {
    def addColumns(df: DataFrame, cols: Array[String]): DataFrame = {
      if (cols.isEmpty) df
      else addColumns(
        df.withColumn(col + "_" + cols.head, df(col + "." + cols.head)),
        cols.tail
      )
    }

    val field = df.select(col).schema.fields(0)
    val newCols = field.dataType.asInstanceOf[StructType].fields.map(x => x.name)

    addColumns(df, newCols).drop(col)
  }

  def withColumnMany(colName: String, col: Column) = {
    df.withColumn(colName, col).flattenColumn(colName)
  }

}

次に、使用方法は非常に簡単です。

case class MyClass(a: Int, b: Int)

val df = sc.parallelize(Seq(
  (0),
  (1)
)).toDF("x")

val f = udf((x: Int) => MyClass(x*2,x*3))

df.withColumnMany("test", f($"x")).show()

//  +---+------+------+
//  |  x|test_a|test_b|
//  +---+------+------+
//  |  0|     0|     0|
//  |  1|     2|     3|
//  +---+------+------+
2
Pekka