web-dev-qa-db-ja.com

Apache SparkとApacheApexの違いは何ですか?

Apache Apex -は、オープンソースのエンタープライズグレードの統合ストリームおよびバッチ処理プラットフォームです。これは、IOTのGEPredixプラットフォームで使用されます。これら2つのプラットフォームの主な違いは何ですか?

質問

  1. データサイエンスの観点から、Sparkとどう違うのですか?
  2. ApacheApexはSpark MLlibのような機能を提供しますか?Apache apexでスケーラブルなMLモデルを構築する必要がある場合、その方法と使用する言語は?
  3. データサイエンティストは、スケーラブルなMLモデルを構築するためにJavaを学ぶ必要がありますか?pysparkのようなpython APIがありますか?
  4. ApacheApexをSparkと統合できますか?また、Apex上でSpark MLlibを使用してMLモデルを構築できますか?
16
GeorgeOfTheRF
  1. Apache Apexは、ストリーミングデータを処理するためのエンジンです。同じことを達成しようとする他のいくつかは、Apacheストーム、Apacheflinkです。 Apache Apexの違いは、フォールトトレランス、スケーラビリティ、および運用のユースケースで重要な考慮事項である操作性に重点を置いたサポートが組み込まれていることです。

Sparkとの比較:Apache Sparkは実際にはバッチ処理です。Sparkストリーミング(下でsparkを使用) )次に、マイクロバッチ処理です。対照的に、Apache apexは真のストリーム処理です。ある意味で、着信レコードは処理のために次のレコードを待つ必要はありません。レコードは処理され、すぐに次のレベルの処理に送信されます。到着すると。

  1. 現在、ApacheApexとApacheSamoa、H2Oなどの機械学習ライブラリとの統合のサポートを追加する作業が進行中です。参照 https://issues.Apache.org/jira/browse/SAMOA-49

  2. 現在、Java、Scalaをサポートしています。
    https://www.datatorrent.com/blog/blog-writing-Apache-apex-application-in-scala/ Pythonの場合、Jythonを使用して試すことができます。しかし、私はそれを自分で試したことがありません。だから、それについてはよくわかりません。

  3. Sparkは、2つの異なる処理エンジンであることを考えると、お勧めできません。ただし、Apacheapexと機械学習ライブラリの統合は進行中です。

他に質問がある場合は、Apache apexユーザーのメーリングリストに投稿できる機能のリクエスト: https://mail-archives.Apache.org/mod_mbox/incubator-apex-users/

22
Yogi Devendra