Apache Spark + Delta Lakeの概念

Question

Spark + Delta。

1）Databricksは3つのレイヤー（ブロンズ、シルバー、ゴールド）を提案していますが、どのレイヤーで機械学習に使用することが推奨されていますか？ゴールドレイヤーでデータをクリーンで準備することを提案していると思います。

2）これらの3つのレイヤーの概念を抽象した場合、ブロンズレイヤーをデータレイク、シルバーレイヤーをデータベース、ゴールドデータウェアハウスとしてのレイヤー？機能面では、.

3）デルタアーキテクチャは商用用語です、またはカッパアーキテクチャの進化ですか、それともラムダおよびカッパアーキテクチャのような新しいトレンドアーキテクチャですか？（Delta + Lambdaアーキテクチャ）とKappaアーキテクチャの違いは何ですか？

4）多くの場合、Delta + Sparkは、ほとんどのデータベースよりもはるかに安価にスケーリングできるため、適切に調整すると、クエリ結果がほぼ2倍高速になります。かなり複雑です。実際のトレンドデータウェアハウスとFeature/Aggデータストアを比較する方法ですが、この比較方法を知りたいのですが？

5）以前はストリーミングプロセスにKafka、Kinesis、またはEvent Hubを使用していましたが、これらのツールをDelta Lakeテーブルに置き換えるとどのような問題が発生する可能性があるのかを質問します（すべてが多くのことに依存していることはすでにわかっていますが、私はそれの一般的なビジョンを持っていると思います）。

Joe Widen · Accepted Answer

1）データサイエンティストにお任せください。彼らはシルバーとゴールドの領域で快適に作業できるはずです。より高度なデータサイエンティストの中には、生データに戻って、シルバー/ゴールドテーブルに含まれていない可能性のある追加情報を解析したいものもあります。

2）ブロンズ=ネイティブ形式/デルタレイク形式の生データ。シルバー=デルタ湖のデータをサニタイズおよびクリーンアップ。ゴールド=ビジネス要件に応じて、デルタレイクを介してアクセスされるか、データウェアハウスにプッシュされるデータ。

3）デルタアーキテクチャは、ラムダアーキテクチャの簡単なバージョンです。現時点では、デルタアーキテクチャは商用用語です。将来的に変更されるかどうかを確認します。

4）Delta Lake + Sparkは、最もスケーラブルなデータストレージメカニズムであり、リーズナブルな価格です。ビジネス要件に基づいてパフォーマンスをテストすることができます。DeltaLakeは、どのデータよりもはるかに安価ですストレージ用のウェアハウスです。データアクセスとレイテンシに関する要件は、より大きな問題になります。

5）Kafka、Kinesis、またはEventhubは、エッジからデータレイクにデータを取得するためのソースです。 Delta Lakeは、ストリーミングアプリケーションのソースおよびシンクとして機能します。ソースとしてデルタを使用する問題は実際にはほとんどありません。デルタレイクソースはブロブストレージに存在するため、インフラストラクチャの問題の多くの問題を実際に回避できますが、ブロブストレージの一貫性の問題が追加されます。ストリーミングジョブのソースとしてのデルタレイクは、カフカ/キネシス/イベントハブよりもはるかにスケーラブルですが、エッジからデルタレイクにデータを取得するには、これらのツールが必要です。