web-dev-qa-db-ja.com

Pyspark SQLのどこでlit()を使用する必要がありますか?

ドキュメントで_literal column_として定義されているlit値を使用する必要がある場所を理解しようとしています。

たとえば、SQL列配列のインデックスを返す次のudfを見てください。

_def find_index(column, index):
    return column[index]
_

これに整数を渡すと、エラーが発生します。配列の正しいインデックスを取得するには、lit(n)値をudfに渡す必要があります。

litおよびおそらくcolを使用する場合のハードで速いルールをよりよく学ぶことができる場所はありますか?

20
flybonzai

簡単な例:

df.withColumn("columnName", lit(Column_Value ))

例:

df = df.withColumn("Today's Date", lit(datetime.now()))

しかし、最初のインポートライブラリ:pyspark.sql.functions import litから

0
Megha Jaiswal