web-dev-qa-db-ja.com

Spark DataFrameおよび複数列の名前変更(Java)

複数のdataFrame.withColumnRenamed()を呼び出すよりも、特定のSparkSQL DataFrameのすべてまたは複数の列に同時にプレフィックスまたは名前を変更するより良い方法はありますか?

例は、(完全外部結合を使用して)変更を検出する場合です。その後、同じ構造の2つのDataFramesが残ります。

12
JiriS

これを実行するには、select()メソッドを使用することをお勧めします。実際、withColumnRenamed()メソッドは、select()を単独で使用します。複数の列の名前を変更する方法の例を次に示します。

import org.Apache.spark.sql.functions._

val someDataframe: DataFrame = ...

val initialColumnNames = Seq("a", "b", "c")
val renamedColumns = initialColumnNames.map(name => col(name).as(s"renamed_$name"))
someDataframe.select(renamedColumns : _*)
13
Zyoma

この方法が役立つと思います。

public static Dataset<Row> renameDataFrame(Dataset<Row> dataset) {
    for (String column : dataset.columns()) {
        dataset = dataset.withColumnRenamed(column, SystemUtils.underscoreToCamelCase(column));
    }
    return dataset;
}

    public static String underscoreToCamelCase(String underscoreName) {
        StringBuilder result = new StringBuilder();
        if (underscoreName != null && underscoreName.length() > 0) {
            boolean flag = false;
            for (int i = 0; i < underscoreName.length(); i++) {
                char ch = underscoreName.charAt(i);
                if ("_".charAt(0) == ch) {
                    flag = true;
                } else {
                    if (flag) {
                        result.append(Character.toUpperCase(ch));
                        flag = false;
                    } else {
                        result.append(ch);
                    }
                }
            }
        }
        return result.toString();
    }



1
Alsace

私はちょうど答えを見つけました

df1_r = df1.select(*(col(x).alias(x + '_df1') for x in df1.columns))

at stackoverflow here (受け入れられた回答の最後を参照)

0
lanenok
or (a <- 0 to newsales.columns.length - 1) 
{ 
 var new_c = newsales.columns(a).replace('(','_').replace(')',' ').trim  
 newsales_var = newsales.withColumnRenamed(newsales.columns(a),new_c) 
}
0
Devndra