JDBCを介してRDBMSから読み取り中のspark

Question

sparkをクラスターモードで実行し、JDBCを介してRDBMSからデータを読み取っています。

Spark docs のように、これらのパーティション化パラメーターは、複数のワーカーから並列に読み取るときにテーブルをパーティション化する方法を記述します。

partitionColumn
lowerBound
upperBound
numPartitions

これらはオプションのパラメータです。

これらを指定しないとどうなりますか？

1人の労働者だけがデータ全体を読みましたか？
それでも並列に読み取る場合、データをどのように分割しますか？

zero323 · Accepted Answer

{partitionColumn、lowerBound、upperBound、numPartitions}、または{predicates}のいずれも指定しない場合Sparkは、単一のエグゼキュータを使用し、単一の空でないパーティションを作成します。すべてのデータは単一のトランザクションを使用して処理され、読み取りは分散も並列化もされません。

参照：