web-dev-qa-db-ja.com

Azure Data Lake AnalyticsとAzure Databricksの選択方法

Azure Data Lake AnalyticsとAzure Databricksはどちらもバッチ処理に使用できます。誰がいつ他のものを選ぶべきか理解するのを助けてくれませんか?

19
Pragmatic

私の謙虚な意見では、その多くは既存のスキルセットに帰着します。 Spark、Java、Python、rまたはScalaの経験があるチームがいる場合、Databricksは自然なフィットです。一方、既存のSQLおよびc#スキルを持つチームがある場合U-SQLを使用した学習曲線はそれほど急ではありません。

それとは別に、違いを引き起こすことができる他の質問があります:

  • リアルタイムインタラクション(Databricks)またはバッチモード分析(両方)が必要ですか? U-SQLのリアルタイムの対話性に関するフィードバック項目がありますが、 投票してください
  • 従量課金モデル(U-SQL)または一定期間後に自動終了するクラスター(Databricks)が必要ですか?
  • ノートブック(Databricks)またはVisual Studio/VSCode/Powershell/.net sdk(U-SQL)メソッドで作業するのが好きですか?
  • Spark GraphX(Databricks)のようなライブラリを使用しますか?
  • ランタイム(U-SQL)を実行およびスケーリングする機能が必要ですか?詳細については、 こちら をご覧ください。
  • ローカル開発エミュレーター(U-SQL)が必要ですか? Visual StudioのU-SQLエミュレーターはシームレスです。つまり、湖と同じ構造でローカルドライブに対してコードを開発します(forfree)、次に、Visual Studioのドロップダウンをクリックして、クラウドで実行します。ローカルのSpark=環境がありますが、Databricksのローカル(および切断された)開発エクスペリエンスが何であるかはわかりません。
  • ADLS Gen 2(Databricksのみ)を使用していますか? here を参照してください。

UPDATE 2018年10月:私の知る限り、U-SQLは現時点ではADLS Gen 2をサポートしていません。 )。投稿ifとそのサポートが追加されたときに更新します。

2019年1月の更新:U-SQLには、 Spring 2018 以降、意味のある更新がありません。

HTH

29
wBob

Databricksには、さまざまなスキルを持つ専門家がデータを操作できる言語オプションがあります。また、データブリックを使用すると、高性能のメモリ内クラスターでジョブを実行できます。

プロジェクトでは、データレイクをストレージとして使用し、databricksノートブックを介してすべてのジョブ(ETL、分析)を実行します。データレイクにデータを保存する方が安くなります。

複雑なバッチジョブやさまざまな種類の専門家があなたのデータに取り組む場合、質問に戻ります。 Azure Data Lake + Databricksアーキテクチャを選択できます。そうでなければ、Azure Data Lakeがニーズを満たします。

これらの2つの記事をご覧ください。 https://databricks.com/glossary/data-lakehttps://visualbi.com/blogs/Microsoft/Azure/etl-Azure-databricks-vs-data-lake- analytics /

1
Wei-Hsuan Chou