web-dev-qa-db-ja.com

JDBCを介してRDBMSから読み取り中のspark

sparkをクラスターモードで実行し、JDBCを介してRDBMSからデータを読み取っています。

Spark docs のように、これらのパーティション化パラメーターは、複数のワーカーから並列に読み取るときにテーブルをパーティション化する方法を記述します。

  • partitionColumn
  • lowerBound
  • upperBound
  • numPartitions

これらはオプションのパラメータです。

これらを指定しないとどうなりますか?

  • 1人の労働者だけがデータ全体を読みましたか?
  • それでも並列に読み取る場合、データをどのように分割しますか?
10
Devender

{partitionColumnlowerBoundupperBoundnumPartitions}、または{predicates}のいずれも指定しない場合Sparkは、単一のエグゼキュータを使用し、単一の空でないパーティションを作成します。すべてのデータは単一のトランザクションを使用して処理され、読み取りは分散も並列化もされません。

参照:

17
zero323