web-dev-qa-db-ja.com

膨大な量のテキストファイルはどこで入手できますか?

可能性のある複製:
FULLTEXTスタイルの検索をテストするデータセットを探しています

最近、データマイニングのプロジェクトに参加しています。テストには10​​0 GBのプレーンテキストが必要です。誰かが私がそのようなテキストファイルをダウンロードできるリンクを提供することで私を助けてください。ありがとう。

15
Sri

どのタイプのテキストを検索していますか?会話型、記事、書籍-それともすべての良い広がり?

プロジェクトGutenbergは良いスタートかもしれません: http://www.gutenberg.org/

ウィキペディアでは、記事のアーカイブをダウンロードすることもできます。 http://en.wikipedia.org/wiki/Wikipedia:Database_download

9
Jordan

http://dumps.wikimedia.org/ を使用する必要があります

4
vikky