format（ "kafka"）が "データソースの検出に失敗しました：kafka"で失敗するのはなぜですか。（uber-jarでも）？

Question

Spark2パッケージ2.2.0でHDP-2.6.3.0を使用します。

構造化ストリーミングAPIを使用してKafkaコンシューマーを記述しようとしていますが、ジョブをクラスターに送信した後に次のエラーが表示されます。

Exception in thread "main" Java.lang.ClassNotFoundException: Failed to find data source: kafka. Please find packages at http://spark.Apache.org/third-party-projects.html at org.Apache.spark.sql.execution.datasources.DataSource$.lookupDataSource(DataSource.scala:553) at org.Apache.spark.sql.execution.datasources.DataSource.providingClass$lzycompute(DataSource.scala:89) at org.Apache.spark.sql.execution.datasources.DataSource.providingClass(DataSource.scala:89) at org.Apache.spark.sql.execution.datasources.DataSource.sourceSchema(DataSource.scala:198) at org.Apache.spark.sql.execution.datasources.DataSource.sourceInfo$lzycompute(DataSource.scala:90) at org.Apache.spark.sql.execution.datasources.DataSource.sourceInfo(DataSource.scala:90) at org.Apache.spark.sql.execution.streaming.StreamingRelation$.apply(StreamingRelation.scala:30) at org.Apache.spark.sql.streaming.DataStreamReader.load(DataStreamReader.scala:150) at com.example.KafkaConsumer.main(KafkaConsumer.Java:21) at Sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at Sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.Java:62) at Sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.Java:43) at Java.lang.reflect.Method.invoke(Method.Java:498) at org.Apache.spark.deploy.SparkSubmit$.org$Apache$spark$deploy$SparkSubmit$runMain(SparkSubmit.scala:782) at org.Apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:180) at org.Apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:205) at org.Apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:119) at org.Apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala) Caused by: Java.lang.ClassNotFoundException: kafka.DefaultSource at Java.net.URLClassLoader.findClass(URLClassLoader.Java:381) at Java.lang.ClassLoader.loadClass(ClassLoader.Java:424) at Java.lang.ClassLoader.loadClass(ClassLoader.Java:357) at org.Apache.spark.sql.execution.datasources.DataSource$anonfun$22$anonfun$apply$14.apply(DataSource.scala:537) at org.Apache.spark.sql.execution.datasources.DataSource$anonfun$22$anonfun$apply$14.apply(DataSource.scala:537) at scala.util.Try$.apply(Try.scala:192) at org.Apache.spark.sql.execution.datasources.DataSource$anonfun$22.apply(DataSource.scala:537) at org.Apache.spark.sql.execution.datasources.DataSource$anonfun$22.apply(DataSource.scala:537) at scala.util.Try.orElse(Try.scala:84) at org.Apache.spark.sql.execution.datasources.DataSource$.lookupDataSource(DataSource.scala:537) ... 17 more

フォロー中spark-submitコマンド：

$SPARK_HOME/bin/spark-submit \ --master yarn \  --deploy-mode client \  --class com.example.KafkaConsumer \  --executor-cores 2 \  --executor-memory 512m \ --driver-memory 512m \ sample-kafka-consumer-0.0.1-SNAPSHOT.jar

My Javaコード：

package com.example; import org.Apache.spark.sql.Dataset; import org.Apache.spark.sql.Row; import org.Apache.spark.sql.SparkSession; public class KafkaConsumer { public static void main(String[] args) { SparkSession spark = SparkSession .builder() .appName("kafkaConsumerApp") .getOrCreate(); Dataset<Row> ds = spark .readStream() .format("kafka") .option("kafka.bootstrap.servers", "dog.mercadoanalitico.com.br:6667") .option("subscribe", "my-topic") .load(); } }

pom.xml：

<project xmlns="http://maven.Apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.Apache.org/POM/4.0.0 http://maven.Apache.org/xsd/maven-4.0.0.xsd"> <modelVersion>4.0.0</modelVersion> <groupId>com.example</groupId> <artifactId>sample-kafka-consumer</artifactId> <version>0.0.1-SNAPSHOT</version> <packaging>jar</packaging> <dependencies> <!-- spark --> <dependency> <groupId>org.Apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.2.0</version> </dependency> <dependency> <groupId>org.Apache.spark</groupId> <artifactId>spark-sql_2.11</artifactId> <version>2.2.0</version> </dependency> <dependency> <groupId>org.Apache.spark</groupId> <artifactId>spark-sql-kafka-0-10_2.11</artifactId> <version>2.2.0</version> </dependency> <!-- kafka --> <dependency> <groupId>org.Apache.kafka</groupId> <artifactId>kafka_2.11</artifactId> <version>0.10.1.0</version> </dependency> </dependencies> <repositories> <repository> <id>local-maven-repo</id> <url>file:///${project.basedir}/local-maven-repo</url> </repository> </repositories> <build> <!-- Include resources folder in the .jar --> <resources> <resource> <directory>${basedir}/src/main/resources</directory> </resource> </resources> <plugins> <!-- Plugin to compile the source. --> <plugin> <groupId>org.Apache.maven.plugins</groupId> <artifactId>maven-compiler-plugin</artifactId> <version>3.6.1</version> <configuration> <source>1.8</source> <target>1.8</target> </configuration> </plugin> <!-- Plugin to include all the dependencies in the .jar and set the main class. --> <plugin> <groupId>org.Apache.maven.plugins</groupId> <artifactId>maven-shade-plugin</artifactId> <version>3.0.0</version> <executions> <execution> <phase>package</phase> <goals> <goal>shade</goal> </goals> <configuration> <filters> <!-- This filter is to workaround the problem caused by included signed jars. Java.lang.SecurityException: Invalid signature file digest for Manifest main attributes --> <filter> <artifact>*:*</artifact> <excludes> <exclude>META-INF/*.SF</exclude> <exclude>META-INF/*.DSA</exclude> <exclude>META-INF/*.RSA</exclude> </excludes> </filter> </filters> <transformers> <transformer implementation="org.Apache.maven.plugins.shade.resource.ManifestResourceTransformer"> <mainClass>com.example.KafkaConsumer</mainClass> </transformer> </transformers> </configuration> </execution> </executions> </plugin> </plugins> </build> </project>

[UPDATE] UBER-JAR

Uber-jarを生成するためにpom.xmlで使用される構成の下

 <plugin> <groupId>org.Apache.maven.plugins</groupId> <artifactId>maven-shade-plugin</artifactId> <version>3.0.0</version> <executions> <execution> <phase>package</phase> <goals> <goal>shade</goal> </goals> <configuration> <filters> <!-- This filter is to workaround the problem caused by included signed jars. Java.lang.SecurityException: Invalid signature file digest for Manifest main attributes --> <filter> <artifact>*:*</artifact> <excludes> <exclude>META-INF/*.SF</exclude> <exclude>META-INF/*.DSA</exclude> <exclude>META-INF/*.RSA</exclude> </excludes> </filter> </filters> <transformers> <transformer implementation="org.Apache.maven.plugins.shade.resource.ManifestResourceTransformer"> <mainClass>com.example.KafkaConsumer</mainClass> </transformer> </transformers> </configuration> </execution> </executions> </plugin>

Jacek Laskowski · Accepted Answer

kafkaデータソースは external モジュールであり、Sparkアプリケーションではデフォルトで使用できません。

pom.xmlで依存関係として定義する必要がありますが（これは既に行ったとおりです）、これはSpark=アプリケーションで使用するための最初のステップです。

 <dependency> <groupId>org.Apache.spark</groupId> <artifactId>spark-sql-kafka-0-10_2.11</artifactId> <version>2.2.0</version> </dependency>

その依存関係を使用すると、すべての依存関係を完全にバンドルするいわゆるuber-jarを作成するかどうかを決定する必要があります（かなり大きなjarファイルが作成され、提出時間を長くするか、--packages（または柔軟性の低い--jars）オプションを使用して、spark-submit時に依存関係を追加します。

（必要なjarをHadoop HDFSに保存する、またはSparkアプリケーションの依存関係を定義するHadoopディストリビューション固有の方法を使用するなどのオプションがありますが、簡単にしましょう）

--packagesを最初に使用することをお勧めします。それが機能する場合にのみ、他のオプションを検討してください。

spark-submit --packagesを使用して、次のようにspark-sql-kafka-0-1モジュールを含めます。

spark-submit --packages org.Apache.spark:spark-sql-kafka-0-10_2.11:2.2.0

必要に応じて、他のコマンドラインオプションを含めます。

ユーバージャーアプローチ

いわゆるber-jarにすべての依存関係を含めると、META-INFディレクトリの処理方法が原因で、常に機能するとは限りません。

kafkaデータソース（および他の一般的なデータソース）が機能するには、すべてのデータソースのMETA-INF/services/org.Apache.spark.sql.sources.DataSourceRegisterがmerged（replaceやfirstなどではなく、使用する戦略）であることを確認する必要があります。

kafkaデータソースは独自の META-INF/services/org.Apache.spark.sql.sources.DataSourceRegister を使用します org.Apache.spark.sql.kafka010.KafkaSourceProvider kafka形式のデータソースプロバイダーとして。

RajashekharC · Answer

私も同様の問題を抱えていましたが、Cloudera-Sparkバージョンを2.2-> 2.3からアップグレードしたときに問題が始まりました。

問題は：私のuber jar META-INF/serives/org.Apache.spark.sql.sources.DataSourceRegisterは、他のjarに存在する同様のファイルによって上書きされていました。そのため、「DataSourceRegister」ファイルでKafkaConsumerエントリを見つけることができませんでした。

解像度： POM.xmlの変更が助けになりました。

<configuration> <transformers> <transformer implementation="org.Apache.maven.plugins.shade.resource.AppendingTransformer"> <resource> META-INF/services/org.Apache.spark.sql.sources.DataSourceRegister </resource> </transformer> </transformers>

pppk520 · Answer

Uber-jarの場合、 ServicesResourceTransformer をshade-pluginに追加すると機能します。

<transformers> <transformer implementation="org.Apache.maven.plugins.shade.resource.ServicesResourceTransformer"/> </transformers>

format（ "kafka"）が "データソースの検出に失敗しました：kafka"で失敗するのはなぜですか。 （uber-jarでも）？

ユーバージャーアプローチ

format（ "kafka"）が "データソースの検出に失敗しました：kafka"で失敗するのはなぜですか。（uber-jarでも）？