web-dev-qa-db-ja.com

ビッグデータとデータマイニングの違いは何ですか?

Wikpediaが述べているように

データマイニングプロセスの全体的な目標は、データセットから情報を抽出し、さらに使用するために理解可能な構造に変換することです。

これはビッグデータとどのように関係していますか? Hadoopが並行してデータマイニングを実行していると言ったら正しいですか?

22
DesirePRG

ビッグデータがすべて

ビッグデータはマーケティング用語であり、技術用語ではありません。最近はすべてがビッグデータです。私のUSBスティックは現在「パーソナルクラウド」であり、ハードドライブはビッグデータです。真剣に。これは完全に不明確な用語であり、主にさまざまな非常に楽観的な企業のマーケティング部門が販売できるものと、マジックを実現するために主要企業のC * Oが購入するものによって定義されます。更新:現在、data scienceにも同じことが当てはまります。それは単なるマーケティングです。

データマイニングは古いビッグデータです

実際、データマイニングは同じくらい使いすぎていました...

  • データの収集(NSAを考える)
  • データを保存する
  • 機械学習/ AI(データマイニングという用語よりも前)
  • 非MLデータマイニング(「データマイニング」という用語が実際に作られた「知識発見」のように、焦点は新しい知識ではなく、既存の知識の学習について)
  • ビジネスルールと分析
  • 視覚化
  • 大量のお金で販売したいデータを含むもの

マーケティングには新しい用語が必要でした。 「ビジネスインテリジェンス」、「ビジネスアナリティクス」、...彼らは引き続き同じものを販売し続けています。今では「ビッグデータ」と改名されています。

ほとんどの「大きな」データマイニングは大きくありません

ほとんどの方法-少なくとも興味深い結果が得られる方法-はスケーリングしないため、「マイニング」されるデータのほとんどは実際には大きくありません。明らかに10年前よりはるかに大きいですが、Exabytesほど大きくはありません。 KDnuggetsによる調査では、1〜10 GBが平均的な「分析された最大のデータセット」でした。データ管理手段によるビッグデータではありません。 complexメソッドを使用して分析できるものだけが大きい。 (私はk-meansのような単純なアルゴリズムについて話しているわけではありません)。

ほとんどの「ビッグデータ」はデータマイニングではありません

現在、「ビッグデータ」は現実のものです。 Googleにはビッグデータがあり、CERNにもビッグデータがあります。他のほとんどの人はおそらくそうではありません。データをstoreするためだけに1000台のコンピューターが必要になると、データが大きくなり始めます。

Hadoopなどのビッグデータテクノロジーも現実的です。それらは常に賢明に使用されるわけではありません(100ノード未満のhadoopクラスターを実行することを気にしないでください-この点は、適切に選択された非クラスター化マシンからはるかに優れたパフォーマンスを得ることができるためです)。

しかし、行われていることのほとんどはデータマイニングではありません。 抽出、変換、ロード(ETL) であるため、データウェアハウジングを置き換えています。構造、インデックス、および高速化されたクエリを備えたデータベースを使用する代わりに、データは単にhadoopにダンプされます。何をすべきかを判断したら、すべてのデータを再読み取りし、本当に必要な情報を抽出し、変換し、 Excelスプレッドシートに読み込みます。なぜなら、選択、抽出、変換の後、通常はもう「大きくない」からです。

データ品質はサイズによって低下します

ビッグデータのマーケティング上の約束の多くは成り立ちません。ほとんどの企業にとって、Twitterは広告よりもはるかに少ない洞察しか生み出しません(あなたがティーンエイジャーのロックスターでない限り)。 Twitterユーザーベースは偏りが強い。このようなバイアスを修正するのは難しく、経験豊富な統計学者が必要です。

データからのバイアスは問題の1つです。インターネットまたはアプリケーションからランダムなデータを収集するだけの場合、通常は代表的なデータではありません。特に潜在的なユーザーではありません。代わりに、これらの効果をキャンセルすることができなければ、既存のヘビーユーザーに過剰に適合します。

他の大きな問題はただのノイズです。スパムボットだけでなく、他のソースよりもノイズが多い他のツール(「トレンド」を強化するTwitterの「トレンドトピック」と考えてください)もあります。このデータのクリーニングはhardであり、技術の問題ではなく、統計分野の専門知識の問題です。たとえば、Googleインフルトレンドは、かなり不正確であることが繰り返し判明しました。それは以前のいくつかで機能していました(おそらく過剰適合のためでしょうか?)が、もはや良い品質のものではありません。

残念ながら、多くのビッグデータユーザーはこれにあまり注意を払っていません。これはおそらく、ほとんどのビッグデータプロジェクトが失敗するように思われる多くの理由の1つです(他のプロジェクトは無能な管理、膨らんだ非現実的な期待、企業文化と熟練した人材の不足です)。

Hadoop!=データマイニング

それでは、質問の2番目の部分です。 Hadoopはデータマイニングを行いません。 Hadoopはデータストレージを管理し(非常に原始的な種類の分散データベースであるHDFSを介して)、計算タスクをスケジュールし、データを格納する同じマシンで計算を実行できるようにします。複雑な分析はnot行いません。

Hadoopにデータマイニングをもたらすためのツールがいくつかあります。特に、Apache Mahoutは、ApacheがHadoopでデータマイニングを試みる公式の試みと呼ぶことができます。それがほとんど機械学習ツールであることを除いて(機械学習!=データマイニング;データマイニングは時々機械学習からの方法を使用します)。 Mahoutの一部(クラスタリングなど)は、高度とはほど遠いものです。問題は、Hadoopは線形問題に適していますが、ほとんどのデータマイニングは線形ではないことです。また、非線形アルゴリズムは、大きなデータにスケールアップするだけではありません。線形時間の近似値を慎重に作成し、精度の損失に耐える必要があります。損失は、単純に小さなデータを処理することで失う損失よりも小さくなければなりません。

このトレードオフ問題の良い例は、k-meansです。 K-meansは、実際には(ほとんど)線形問題です。そのため、Hadoopで多少実行できます。単一の反復は線形であり、適切な実装があれば、ビッグデータにうまく対応できます。ただし、収束までの反復回数もデータセットのサイズとともに増加するため、実際には線形ではありません。ただし、これは「平均」を見つけるための統計的な方法であるため、実際には結果はデー​​タセットのサイズによってあまり改善されません。したがって、ビッグデータでk-meansを実行することはできますが、あまり意味がありません-データのサンプルを取り、k-meansの非常に効率的な単一ノードバージョンを実行すると、結果は同じくらい良いこと。余分なデータは、値の精度の余分な桁を提供するだけで、それほど正確である必要はありません。

これは非常に多くの問題に当てはまるため、Hadoopでの実際のデータマイニングは開始されないようです。誰もがそれをしようとします、そして、多くの会社がこのものを売ります。しかし、それは非ビッグバージョンよりも実際にはそれほどうまくいきません。しかし、顧客がこれを購入したい限り、企業はこの機能を販売します。そして、助成金が得られる限り、研究者はこれについて論文を書きます。動作するかどうか。それが人生。

これらが機能する場合がいくつかあります。 Google検索がその例であり、Cernです。ただし、画像認識(ただし、Hadoopを使用せず、GPUのクラスターがそこに行く方法であるようです)は、データサイズの増加の恩恵を受けています。しかし、これらのいずれの場合でも、かなりクリーンなデータがあります。 Googleはすべてにインデックスを付けます。 Cernは重要ではないデータを破棄し、興味深い測定値のみを分析します-Cern ...その場合は、それらを代表的なデータとしてではなく、ランダムな画像として扱います)。

59
Anony-Mousse

この回答は、Anony-Mousseからの優れた回答に具体性を追加することを意図しています。

ビッグデータとは何かについては、多くの議論があります。 Anony-Mousseは、分析、ビッグデータ、データマイニングなどの用語の過剰使用に関して、ここで多くの問題を指摘しましたが、さらに詳しく説明したいことがいくつかあります。

ビッグデータ

実際の目的のために、ビッグデータについて聞いた最高の定義は、従来のリレーショナルデータベースでは不便な、または機能しないデータです。これは、処理できない1PBのデータ、または1GBであるが5,000列のデータでさえも可能です。

これは緩やかで柔軟な定義です。それを回避できるセットアップまたはデータ管理ツールは常に存在しますが、これはHadoop、MongoDBなどのツールを以前のテクノロジーより効率的に使用できる場所です。

このような不便な/大規模な/扱いにくいデータで何ができるでしょうか?スプレッドシートを単に見て、ここで意味を見つけるのは難しいので、データマイニングと機械学習をよく使用します。

データマイニング

これは上で軽く呼ばれました-ここでの私の目標は、より具体的で、できればより多くのコンテキストを提供することです。一般に、データマイニングは、データを分析するためのある程度監視された分析的または統計的手法に適用されます。これらは、回帰、分類、クラスタリング、または協調フィルタリングに適合する場合があります。機械学習と多くの重複がありますが、これは一般に、教師なしまたは自動実行ではなく、ユーザーによって駆動されます。これは、機械学習をかなりうまく定義します。

機械学習

多くの場合、機械学習とデータマイニングは同じ意味で使用されます。機械学習には、データマイニングと同じ多くの領域が含まれますが、AI、コンピュータービジョン、およびその他の教師なしタスクも含まれます。主な違いは、これは間違いなく単純化ですが、ユーザー入力は不要であるだけでなく、一般的には不要であるということです。目標は、開発の反復サイクルではなく、これらのアルゴリズムまたはシステムが自己最適化および改善することです。

ビッグデータとHadoopの違いは何ですか?

A:ビッグデータとオープンソースソフトウェアプログラムHadoopの違いは、明確で根本的なものです。前者はしばしば複雑で曖昧な資産であり、後者はその資産を扱うための一連の目標と目的を達成するプログラムです。

ビッグデータは、特定の目標と運用に役立つために企業や他の関係者がまとめた大きなデータのセットです。ビッグデータには、さまざまな種類の形式のさまざまな種類のデータを含めることができます。たとえば、企業は、通貨形式での購入、名前や社会保障番号などの顧客識別子、またはモデル番号、販売番号、在庫番号などの製品情報に関する何千ものデータの収集に多大な労力を費やす可能性があります。このすべて、またはその他の大量の情報は、ビッグデータと呼ばれます。原則として、さまざまな種類のツールやハンドラーを使用するまでは、未加工で分類されていません。

Hadoopは、ビッグデータを処理するために設計されたツールの1つです。 Hadoopおよびその他のソフトウェア製品は、特定の独自のアルゴリズムおよび方法を使用して、ビッグデータ検索の結果を解釈または解析します。 Hadoopは、Apacheライセンスに基づくオープンソースプログラムであり、ユーザーのグローバルコミュニティによって維持されています。 MapReduceの一連の機能やHadoop分散ファイルシステム(HDFS)など、さまざまな主要コンポーネントが含まれています。

MapReduceの背後にある考え方は、Hadoopが最初に大きなデータセットをマッピングし、次に特定の結果を得るためにそのコンテンツの縮小を実行できるということです。 reduce関数は、生データ用の一種のフィルターと考えることができます。次に、HDFSシステムは、ネットワーク全体にデータを配信するか、必要に応じてデータを移行します。

データベース管理者、開発者などは、Hadoopのさまざまな機能を使用して、さまざまな方法でビッグデータを処理できます。たとえば、Hadoopを使用して、不均一なデータ、または従来のテーブルにきちんと収まらないデータや単純なクエリに適切に応答しないデータを使用したクラスタリングやターゲティングなどのデータ戦略を追求できます。

http://www.shareideaonline.com/cs/what-is-the-difference-between-big-data-and-hadoop/ に投稿された記事を参照してください

ありがとうAnkush

4
Ankush

ビッグデータは、データマイニングを含む非常に大きなデータセットで奇跡を起こすことができるフレームワークとツールのコレクションで構成されるTERMです。

Hadoopは、非常に大きなデータセットをブロック(デフォルトでは64 mb)に分割し、HDFS(Hadoop Distributed File System)に格納し、その実行ロジック( MapReduce)には、bytecodeに格納されているデータを処理するためのHDFSが付属しています。ブロックに基づいて分割を行い(分割を構成できます)、MapperおよびReducerプロセスを介して抽出と計算を行います。このようにして、ETLプロセス、データマイニング、データ計算などを行うことができます。

ビッグデータは、非常に大きなデータセットで使用できる用語であると結論付けたいと思います。 Hadoopは、コンポーネントとサービスで並列処理を非常にうまく行えるフレームワークです。そうすることで、データマイニングも取得できます。

ビッグデータとは、最近のストレージが安価で簡単であり、データを分析に利用できる方法を示すために人々が使用する用語です。

データマイニングは、データから有用な情報を抽出しようとするプロセスです。

通常、データマイニングは2つの理由でビッグデータに関連しています

  1. 大量のデータがある場合、パターンはそれほど明確ではないため、誰かが「ハァ」と言って検査することはできません。そのためのツールが必要です。
  2. 多くのデータは、サンプルが大きいため、分析にとって意味のある統計を改善できます。

Hadoopはdoisデータマイニングと並行して言うことができますか? hadoopとは何ですか?彼らのサイトは言う

The Apache Hadoop software library is a framework that allows for the 
distributed processing of large data sets across clusters of computers 
using simple programming models

あなたの声明の「並行」部分は真実です。その「データマイニング」の部分は必ずしも必要ではありません。 hadoopを使用して大量のデータを要約できますが、これはたとえばデータマイニングとは限りません。しかし、ほとんどの場合、人々がhadoopを使用してビッグデータから有用な情報を抽出しようとしていることを賭けることができるので、これは一種のイエスです。

2
Leo

BigDataは、新しいビジネスニーズに対応するための最新のフレームワークであると思います。多くの人がBigDataが3 vのVolume、Variety、Velocityのすべてであることを知っているかもしれません。 BigDataは、さまざまなデータ(構造化および非構造化データ)を活用し、クラスタリング技術を使用してボリュームの問題に対処し、より短い時間で結果を取得する必要があります。

DataminingがETL原則に基づいている場合、つまり、モデリング手法を使用して大規模なデータセットから有用な情報を見つける場合。これを実現するために、市場には多くのBIツールがあります。

1
Hima Sagar