web-dev-qa-db-ja.com

Hadoopを試すための無料の大規模データセット

無料で低コストなHadoopを試すための大きなデータセットを知っていますか?関連するポインタ/リンクは大歓迎です。

好み:

  • 少なくとも1 GBのデータ。

  • ウェブサーバーの運用ログデータ。

私が今まで見つけたそれらのいくつか:

  1. ウィキペディアダンプ

  2. http://wiki.freebase.com/wiki/Data_dumps

  3. http://aws.Amazon.com/publicdatasets/

また、独自のクローラーを実行して、サイトなどからデータを収集できますか?ウィキペディア?これを行う方法についてのポインタも歓迎します。

40
Sundar

クロールとウィキペディアに関する質問についてのポイントはほとんどありません。

wikipediaデータダンプ にリンクしているため、UMDの Cloud9 プロジェクトを使用して、Hadoopでこのデータを操作できます。

彼らにはこれに関するページがあります: ウィキペディアでの作業

リストに追加する別のデータソースは次のとおりです。

  • ClueWeb09 -1月から2月9日に収集された10億のWebページ。5TB圧縮。

クローラーを使用してデータを生成することは、私が言うHadoop/MapReduceについての別の質問に投稿する必要があります。

11
Binary Nerd

明らかなソース: Stack Overflow trilogy data dumps 。これらは、クリエイティブコモンズライセンスの下で無料で利用できます。

10
APC

これは、機械学習用の189個のデータセットのコレクションです(hadoopgの最も優れたアプリケーションの1つです): http:// archive .ics.uci.edu/ml/datasets.html

7

ログファイルではありませんが、OpenStreetMapのplanetファイルを使用できます。 http://wiki.openstreetmap.org/wiki/Planet.osm

CCライセンス、約160 GB(アンパック)

大陸ごとに小さなファイルもあります: http://wiki.openstreetmap.org/wiki/World

6
Olvagor