web-dev-qa-db-ja.com

$= kafka構造化ストリーミングのデータソース]にgroup.idを設定する方法

安全なカフカから読み取るには、Spark構造化ストリーミングを使用したいです。つまり、特定のGroup.IDを強制する必要があります。ただし、文書に記載されているように、これは不可能です。それでも、Databricksのドキュメント https://docs.azuredatabricks.net/spark/latest/Structured-Streaming/Kafka.htmor#using-ssl それが可能であると言います。これはAzure Clusterのみを参照しますか?

また、Apache/Spark Repoのマスターブランチの文書を見ることで https://github.com/apache/spark/blob/master/docs/Structured-Straming-kafka- Integration.md 、そのような機能は後のsparkリリースで追加されることを意図していることを理解することができます。そのような安定したリリースの計画を知っていますか、それはその消費者グループ.idの設定を可能にする予定ですか?

そうでない場合は、特定のコンシューマグループを設定できるようにSpark 2.4.0の回避策はありますか?

9

構造化ストリーミングガイド それについて非常に明白なようです。

次のKafka paramsを設定できません、Kafkaソースまたは)シンクは例外をスローします。

group.id:Kafka Sourceが自動的に各クエリの一意のグループIDを作成します。

auto.offset.reset:sourceオプションの起動オフセットを設定して、代わりにどこに起動するかを指定します。

1
Jacek Laskowski