最初にVMにubuntu経由でアクセスします。これはVMもUbuntu 14.04です。Apacheをインストールする必要がありますSparkできるだけ早く、しかし、私がそれを助けるか、それが最も説明されている参照を私に与えることができるものを見つけることができません。ローカルマシンUbuntu 14.04に一度インストールしようとしましたが、失敗しましたが、私はクラスタにインストールしないでください。
インストールして、spark in3つの簡単なステップを使用して開始できます。
ターミナルからダウンロードしたフォルダーに移動し、次のコマンドを実行します。
tar -xvf spark-x.x.x.tgz //replace x's with your version
抽出されたフォルダーに移動し、次のコマンドのいずれかを実行します。
./bin/spark-Shell // for interactive scala Shell
./bin/pyspark // for interactive python Shell
これで sparkで遊ぶ の準備ができました
従うべきプロセスは主にこれです:
バージョン7または8のJava Development Kitがインストールされていることを確認してください
次のステップでScalaをインストールします。
そして、~/.bashrc
ファイルの最後に以下を追加します
export SCALA_HOME=<path to Scala home>
export PATH=$SCALA_HOME/bin:$PATH
bashrcを再起動します。
$ . .bashrc
次のステップでgitをインストールします。 Spark buildはgitに依存します。
Sudo apt-get install git
最後にsparkからの配布 こちら
$ wget http://d3kbcqa49mib13.cloudfront.net/spark-1.4.0.tgz
$ tar xvf spark-1.4.0.tgz
SBT(Simple Build Tool)はSparkのビルドに使用され、Sparkがバンドルされています。コードをコンパイルするには
$ cd spark-1.4.0
$ build/sbt Assembly
構築には時間がかかります。
このブログ投稿を参照 、ここでは、Apacheをインストールするためのより詳細な手順を見つけることができますSpark Ubuntu-14.04
この投稿では、Ubuntu/LinuxマシンでApache Spark-2.0をセットアップする詳細な手順について説明します。 SparkをUbuntuマシンで実行するには、JavaおよびScalaインストール済み。Spark Hadoopの有無に関係なくインストールできます。この投稿では、Spark 2.0Standalone。Spark-2.0のHadoopへのインストールについては別の投稿で説明します。 Sparkを使用してアプリケーションを実行するためにJupyterノートブックをインストールするには、Python pysparkモジュールを使用します。まず、Javaとスカラ。
$ scala -version
$ Java –version
scalaおよびJavaがすでにインストールされている場合は、次のコマンドを使用してこれらのインストールに進むことができます。
$ Sudo apt-get update
$ Sudo apt-get install Oracle-Java8-installer
$ wget http://www.scala-lang.org/files/archive/scala-2.10.4.tgz
$ Sudo mkdir /usr/local/src/scala
$ Sudo tar xvf scala-2.10.4.tgz -C /usr/local/scala/
Javaおよびscalaが正しくインストールされている場合、– Scala code runnerバージョン2.10.4-Copyright 2002-2013、LAMP/EPFL and for Java表示されるはずJava version "1.8.0_101" Java(TM)SEランタイム環境(ビルド1.8.0_101-b13)Java HotSpot(TM)64ビットサーバーVM(ビルド25.101-b14、混合モード)そして、 .bashrcファイルの最後にこれらの行を追加します。
export SCALA_HOME=/usr/local/scala/scala-2.10.4
export PATH=$SCALA_HOME/bin:$PATH
このコマンドを使用してbashrcを再起動します
$ . .bashrc
インストールSpark First Download Spark from https://spark.Apache.org/downloads.html これらのオプションを使用してSpark Realease:2.0.0パッケージタイプ:Hadoop 2.7および直接ダウンロードで事前構築されています。
ここで、$ HOME/Downloadsに移動し、次のコマンドを使用してspark tarファイルを抽出し、指定された場所に移動します。
$ `tar xvf spark-1.3.1-bin-hadoop2.6.tgz`
$ `cd $HOME/Downloads/`
$ mv spark-2.0.0-bin-hadoop2.7 /usr/local/spark
〜/ .bashrcファイルに次の行を追加します。これは、spark=ソフトウェアファイルが置かれている場所をPATH変数に追加することを意味します。
export SPARK_HOME=/usr/local/spark
export PATH =$SPARK_HOME/bin:$PATH
これらのコマンドを使用して、環境.bashrcを再起動しますsource ~/.bashrc
または
. .bashrc
これらのコマンドを使用して、spark-Shellを開始できます。
$spark-Shell for starting scala API
$ pyspark for starting Python API
Mavenプロジェクトを作成して動作させ、sparkの依存関係をpom.xmlファイルに挿入しました。 ScalaではなくJavaでプログラミングしなければならなかったので、それは私にとってうまくいった方法でした。
http://spark.Apache.org/downloads.html にアクセスしてApache Sparkをダウンロードすることから開始できます。既存のHadoopクラスター/インストールがない場合に実行する必要があるため、オプションを選択できます。これにより、tar -xvf [filename]
で抽出できる.tgzファイルが得られます。そこからspark Shellを起動して、ローカルモードで開始できます。詳細については、 http://spark.Apache.org/docs/の開始ガイドを参照してください。 latest / 。