web-dev-qa-db-ja.com

hadoopとteradataの違いは何ですか

Teradataに触れました。私はHadoopに触れたことがありませんが、昨日からそれについていくつかの調査を行っています。両方の説明から、それらはかなり交換可能に見えますが、いくつかの論文では、それらは異なる目的に役立つと書かれています。しかし、私が見つけたのは漠然としたものだけです。私は混乱しています。

誰かがそれらの両方を経験したことがありますか?それらの重大な違いは何ですか?

簡単な例:数十億行の生データを変換してDWHに編成するETLを構築したいと思います。次に、それらに対していくつかのリソースの高価な分析を行います。なぜTDを使用するのですか?なぜHadoopなのか?またはなぜですか?

8
John

この記事 「MapReduceとParallel DBMS:Friends or Foes」というタイトルは、各テクノロジーが最適に機能する状況を説明するのに非常に役立ちます。一言で言えば、Hadoopは、非構造化データを格納し、並列変換を実行して受信データを「サニタイズ」するのに優れています。DBMSは複雑なクエリをすばやく実行します。

7
ryanbwork

Hadoop、拡張機能を備えたHadoop、RDBMSの機能/プロパティの比較

私はこの分野の専門家ではありませんが、coursera.comコースのIntroduction to Data Scienceには、「MapReduceとデータベースの比較」というタイトルの講義と、コースのマップリデュースセクション内の並列データベースに関する講義があります。

MapReduceとRDBMS(必ずしも並列RDMBSである必要はありません)の比較に関するこれらの講義の要約を次に示します。覚えておくべき1つのポイントは、PIGやHiveなどのHadoopの拡張機能を含めると、比較が異なることです。これらの機能/プロパティの一部を追加する()MapReduce拡張機能を追加します。

RDBMSにはあるがネイティブのMapReduceにはないいくつかの機能/プロパティ:

  • 宣言型クエリ言語-(Pig、Hive)
  • スキーマ(Hive、Pig、DyradLINQ、Hadapt)
  • 論理データの独立性
  • インデックス作成(Hbase)
  • 代数的最適化(豚、ドライアド、ハイブ)
  • キャッシング/マテリアライズドビュー
  • ACID /トランザクション

MapReduce(通常のRDBMSと比較して必ずしも並列RDMBSではありません)

  • 高いスケーラビリティ
  • フォールトトレランス
  • 「1人での展開」
3
Yaniv

まず、Vanilla Apache Hadoopは100%オープンソースです。ただし、コンサルタントと一緒に商用サポートが必要な場合は、Cloudera、MapR、HortonWorksなどの企業があります。

Hadoopは、バグを修正し、一貫して改善を行うコミュニティの成長に支えられています。 HadoopストレージモデルHDFSは、大量のデータを処理することが証明されているGoogleの [〜#〜] gfs [〜#〜] アーキテクチャに基づいています。さらに、Hadoop分析モデルのMapReduceはGoogleの MapReduceモデル に基づいています。

Hadoopは、Facebook、Yahoo、Twitter、EBayなどのTech Giantsによって使用され、大量のデータをリアルタイムで受動的に保存および分析します。

あなたの質問のためにETLシステムはこれらを読んでください スライド あなたが見るところ。

では、なぜHadoopなのですか?

  1. オープンソース
  2. 大量のデータに対する実証済みのストレージおよび分析モデル
  3. セットアップして実行するための最小ハードウェア要件。

さて、なぜTDなのですか?

  1. 商用サポート
1
shazin

私は何度かこの質問をされましたが、私が通常与える答えは車の例えです(私は車の人ではないのでかなりばかげていますが、うまくいくようです)

  • Teradataは、大衆向けの自動車/データベース管理システムです。信頼性が高く、成熟しており、適切に機能し、必要なときに利用できます。 (Hadoopと比較して)基本製品をカスタマイズして機能を追加することは困難です。
  • Hadoopは、愛好家のための車/データベースです-信頼性や成熟度は低く、それに注意を払う限りうまく機能します。 (Teradataと比較して)簡単にカスタマイズして、基本製品に機能を追加できます。

言い換えると、Teradataは、ミッションクリティカルなプロセス(運用レポート、エンタープライズレポート、意思決定支援など)を配置する信頼性の高い主力製品です。 Hadoopは、このようなことをたくさん実行できる場所ですが、ある朝に来て、誰かがパッチを適用したか、突然「あまりにも」を取得したために規制レポートを作成できないことに気付いても驚かないでください。多くの小さなファイル」の問題。

アナロジーに戻ると、あまり技術的になりたくなく、メーカーの製品(dbmsやcar)が箱から出してすぐに機能する場合は、Teradataが適しています。一方、ボンネットの下でいじくり回したい場合は、キャブレター(またはその他)を交換し、ギア比を調整し、国または都市のどちらで運転しているかに応じて空燃比を微調整し、ターボチャージャーをボルトで固定します。またはあなたの家族はあなたが週末にガレージで過ごす時間について不平を言います-Hadoopはあなたのための場所です。

私見、すべてではないにしてもほとんどの組織が両方を必要としています。これがお役に立てば幸いです:-)

0
GMc