web-dev-qa-db-ja.com

PySparkでのYARNキューの設定

PySparkでSparkコンテキストを作成するとき、私は通常、次のコードを使用します。

conf = (SparkConf().setMaster("yarn-client").setAppName(appname)
        .set("spark.executor.memory", "10g")
        .set("spark.executor.instances", "7")
        .set("spark.driver.memory", "5g")
        .set("spark.shuffle.service.enabled","true")
        .set("spark.dynamicAllocation.enabled","true")
        .set("spark.dynamicAllocation.minExecutors","5")
        )
sc = SparkContext(conf=conf)

ただし、これによりデフォルトのキューに入れられ、ほとんどの場合、容量を超えています。使用可能なキューの数が少ないので、私の質問は、別のキューを使用するようにSparkコンテキストを設定するにはどうすればよいですか?

編集:明確にするために-インタラクティブジョブ(Jupyterノートブックでの探索的分析など)のキューを設定しようとしているので、spark-submitでキューを設定できません。

4
Tim

Spark-submitコマンドで以下の引数を使用できます。

--queue queue_name

このプロパティはコードで設定できます。 spark.yarn.queue

これがお役に立てば幸いです。

ありがとう

8
Manu Gupta

「queue」ではなく「yarn.spark.queue」を使用してみてください。

conf = pyspark.SparkConf().set("yarn,spark.queue", "your_queue_name")
sc
0
Bean Dog