Hadoopを試すための無料の大規模データセット

Question

無料で低コストなHadoopを試すための大きなデータセットを知っていますか？関連するポインタ/リンクは大歓迎です。

好み：

私が今まで見つけたそれらのいくつか：

また、独自のクローラーを実行して、サイトなどからデータを収集できますか？ウィキペディア？これを行う方法についてのポインタも歓迎します。

Binary Nerd · Accepted Answer

クロールとウィキペディアに関する質問についてのポイントはほとんどありません。

彼らにはこれに関するページがあります：ウィキペディアでの作業

リストに追加する別のデータソースは次のとおりです。

クローラーを使用してデータを生成することは、私が言うHadoop/MapReduceについての別の質問に投稿する必要があります。

APC · Answer

明らかなソース： Stack Overflow trilogy data dumps 。これらは、クリエイティブコモンズライセンスの下で無料で利用できます。

Peter Wippermann · Answer

これは、機械学習用の189個のデータセットのコレクションです（hadoopgの最も優れたアプリケーションの1つです）： http：// archive .ics.uci.edu/ml/datasets.html

Olvagor · Answer

ログファイルではありませんが、OpenStreetMapのplanetファイルを使用できます。 http://wiki.openstreetmap.org/wiki/Planet.osm

CCライセンス、約160 GB（アンパック）