web-dev-qa-db-ja.com

Apache Spark:Python 3でpysparkを使用する方法

私はGH開発マスターからSpark 1.4をビルドしましたが、ビルドは順調に進みました。しかし、bin/pysparkを実行すると、Python 2.7.9バージョンが取得されます。これを変更するにはどうすればよいですか?

74
tchakravarty

環境変数を設定するだけです:

export PYSPARK_PYTHON=python3

これを永続的な変更にしたい場合は、この行をpysparkスクリプトに追加してください。

108
Rtik88
PYSPARK_PYTHON=python3 
./bin/pyspark

IPython Notebookで実行する場合は、次のように記述します。

PYSPARK_PYTHON=python3 
PYSPARK_DRIVER_PYTHON=ipython 
PYSPARK_DRIVER_PYTHON_OPTS="notebook" 
./bin/pyspark

python3にアクセスできない場合は、代わりにパスを渡す必要があります。

現在のドキュメント(1.4.1現在) には古い指示が含まれていることに注意してください。幸いなことに、 パッチが適用されています

24
Piotr Migdal

1、プロファイルの編集:vim ~/.profile

2、コードをファイルに追加します:export PYSPARK_PYTHON=python3

3、コマンドを実行します:source ~/.profile

4、./bin/pyspark

9
yangh

ファイルをご覧ください。 Shebang行は、おそらく最初の互換性のある実行可能ファイルのパスを検索する 'env'バイナリを指しているでしょう。

pythonをpython3に変更できます。 envを変更して、python3バイナリをハードコード化して直接使用します。または、python3でバイナリを直接実行し、Shebang行を省略します。

4
rfkortekaas

Jupyter Notebookの場合、コマンドラインから以下のようにspark-env.shファイルを編集します

$ vi $SPARK_HOME/conf/spark-env.sh

ファイルの下部に移動し、これらの行をコピーして貼り付けます

export PYSPARK_PYTHON=python3
export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS="notebook"

次に、次のコマンドを実行して、ノートブックでpysparkを起動します。

$ pyspark
2
oya163