Sparkで列を行に転置する

Question

テーブルのいくつかの列を行に転置しようとしています。私はPythonおよびSpark 1.5.0。ここに私の最初のテーブルがあります：

+-----+-----+-----+-------+ | A |col_1|col_2|col_...| +-----+-------------------+ | 1 | 0.0| 0.6| ... | | 2 | 0.6| 0.7| ... | | 3 | 0.5| 0.9| ... | | ...| ...| ...| ... |

私はこのようなことをしたいと思います：

+-----+--------+-----------+ | A | col_id | col_value | +-----+--------+-----------+ | 1 | col_1| 0.0| | 1 | col_2| 0.6| | ...| ...| ...| | 2 | col_1| 0.6| | 2 | col_2| 0.7| | ...| ...| ...| | 3 | col_1| 0.5| | 3 | col_2| 0.9| | ...| ...| ...|

誰かが私がそれをできることを知っていますか？ご協力ありがとうございました。

zero323 · Accepted Answer

基本的なSpark= SQL関数を使用するのは比較的簡単です。

Python

from pyspark.sql.functions import array, col, explode, struct, lit df = sc.parallelize([(1, 0.0, 0.6), (1, 0.6, 0.7)]).toDF(["A", "col_1", "col_2"]) def to_long(df, by): # Filter dtypes and split into column names and type description cols, dtypes = Zip(*((c, t) for (c, t) in df.dtypes if c not in by)) # Spark SQL supports only homogeneous columns assert len(set(dtypes)) == 1, "All columns have to be of the same type" # Create and explode an array of (column_name, column_value) structs kvs = explode(array([ struct(lit(c).alias("key"), col(c).alias("val")) for c in cols ])).alias("kvs") return df.select(by + [kvs]).select(by + ["kvs.key", "kvs.val"]) to_long(df, ["A"])

スカラ：

import org.Apache.spark.sql.DataFrame import org.Apache.spark.sql.functions.{array, col, explode, lit, struct} val df = Seq((1, 0.0, 0.6), (1, 0.6, 0.7)).toDF("A", "col_1", "col_2") def toLong(df: DataFrame, by: Seq[String]): DataFrame = { val (cols, types) = df.dtypes.filter{ case (c, _) => !by.contains(c)}.unzip require(types.distinct.size == 1, s"${types.distinct.toString}.length != 1") val kvs = explode(array( cols.map(c => struct(lit(c).alias("key"), col(c).alias("val"))): _* )) val byExprs = by.map(col(_)) df .select(byExprs :+ kvs.alias("_kvs"): _*) .select(byExprs ++ Seq($"_kvs.key", $"_kvs.val"): _*) } toLong(df, Seq("A"))

javadba · Answer

Sparkローカル線形代数ライブラリは現在非常に弱く、上記のような基本的な操作は含まれていません。

Spark 2.1-のためにこれを修正するためのJIRAがありますが、それはあなたを助けません今日。

考慮すべき点：転置を実行するには、データを完全にシャッフルする必要があります。

今のところ、RDDコードを直接記述する必要があります。 transposeをscala-で記述していますが、Pythonでは記述していません。以下にscalaバージョンを示します。

_ def transpose(mat: DMatrix) = { val nCols = mat(0).length val matT = mat .flatten .zipWithIndex .groupBy { _._2 % nCols } .toSeq.sortBy { _._1 } .map(_._2) .map(_.map(_._1)) .toArray matT } _

したがって、これをpythonに変換して使用できます。この特定の瞬間に書き込み/テストする帯域幅がありません。その変換を行うことができなかったかどうかを教えてください。

少なくとも-次はすぐにpythonに変換されます。

zipWithIndex-> enumerate()（同等のPython-@ zero323のクレジット）
map-> [someOperation(x) for x in ..]
groupBy-> itertools.groupBy()

同等のpython=を持たないflattenの実装は次のとおりです。

_ def flatten(L): for item in L: try: for i in flatten(item): yield i except TypeError: yield item _

したがって、これらをまとめてソリューションにすることができるはずです。

David · Answer

Flatmapを使用します。以下のようなものが動作するはずです

from pyspark.sql import Row def rowExpander(row): rowDict = row.asDict() valA = rowDict.pop('A') for k in rowDict: yield Row(**{'A': valA , 'colID': k, 'colValue': row[k]}) newDf = sqlContext.createDataFrame(df.rdd.flatMap(rowExpander))

Vamsi Prabhala · Answer

関数pyspark sqlおよびexplodeを使用してcreate_mapで解決する1つの方法。

from pyspark.sql import functions as func #Use `create_map` to create the map of columns with constant df = df.withColumn('mapCol', \ func.create_map(func.lit('col_1'),df.col_1, func.lit('col_2'),df.col_2, func.lit('col_3'),df.col_3 ) ) #Use explode function to explode the map res = df.select('*',func.explode(df.mapCol).alias('col_id','col_value')) res.show()

Tgsmith61591 · Answer

@javadbaが書いたScala回答を取り、DataFrameのすべての列を転置するためのPythonバージョン。これは少しかもしれませんOPが求めていたものとは異なります...

from itertools import chain from pyspark.sql import DataFrame def _sort_transpose_Tuple(tup): x, y = tup return x, Tuple(Zip(*sorted(y, key=lambda v_k: v_k[1], reverse=False)))[0] def transpose(X): """Transpose a PySpark DataFrame. Parameters ---------- X : PySpark ``DataFrame`` The ``DataFrame`` that should be tranposed. """ # validate if not isinstance(X, DataFrame): raise TypeError('X should be a DataFrame, not a %s' % type(X)) cols = X.columns n_features = len(cols) # Sorry for this unreadability... return X.rdd.flatMap( # make into an RDD lambda xs: chain(xs)).zipWithIndex().groupBy( # Zip index lambda val_idx: val_idx[1] % n_features).sortBy( # group by index % n_features as key lambda grp_res: grp_res[0]).map( # sort by index % n_features key lambda grp_res: _sort_transpose_Tuple(grp_res)).map( # maintain order lambda key_col: key_col[1]).toDF() # return to DF

例えば：

>>> X = sc.parallelize([(1,2,3), (4,5,6), (7,8,9)]).toDF() >>> X.show() +---+---+---+ | _1| _2| _3| +---+---+---+ | 1| 2| 3| | 4| 5| 6| | 7| 8| 9| +---+---+---+ >>> transpose(X).show() +---+---+---+ | _1| _2| _3| +---+---+---+ | 1| 4| 7| | 2| 5| 8| | 3| 6| 9| +---+---+---+

Parul Singh · Answer

実装する非常に便利な方法：

from pyspark.sql import Row def rowExpander(row): rowDict = row.asDict() valA = rowDict.pop('A') for k in rowDict: yield Row(**{'A': valA , 'colID' : k, 'colValue' : row[k]}) newDf = sqlContext.createDataFrame(df.rdd.flatMap(rowExpander)