web-dev-qa-db-ja.com

`SPARK_HOME`に何を設定しますか?

Apache-maven-3.3.3、scala 2.11.6をインストールしてから実行しました:

$ git clone git://github.com/Apache/spark.git -b branch-1.4
$ cd spark
$ build/mvn -DskipTests clean package

最後に:

$ git clone https://github.com/Apache/incubator-zeppelin
$ cd incubator-zeppelin/
$ mvn install -DskipTests

その後、サーバーを実行しました。

$ bin/zeppelin-daemon.sh start

%pysparkで始まる簡単なノートブックを実行すると、py4jが見つからないというエラーが表示されました。ちょうどpip install py4jref )しました。

今、私はこのエラーを取得しています:

pyspark is not responding Traceback (most recent call last):
  File "/tmp/zeppelin_pyspark.py", line 22, in <module>
    from pyspark.conf import SparkConf
ImportError: No module named pyspark.conf

SPARK_HOME/spark/python:/spark/python/libに設定しようとしました。変化なし。

21
A T

2つの環境変数が必要です。

SPARK_HOME=/spark
PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-VERSION-src.Zip:$PYTHONPATH
29
ChromeHearts