NLTKデータをダウンロードするにはどうすればよいですか？

Question

更新された回答：NLTKは2.7でうまく機能します。 3.2がありました。 3.2をアンインストールし、2.7をインストールしました。今では動作します!!

NLTKをインストールし、NLTKデータをダウンロードしようとしました。私がやったことは、このサイトのインストルメントをフォローすることでした： http://www.nltk.org/data.html

NLTKをダウンロードしてインストールし、次のコードを実行しようとしました。

>>> import nltk >>> nltk.download()

次のようなエラーメッセージが表示されました。

Traceback (most recent call last): File "<pyshell#6>", line 1, in <module> nltk.download() AttributeError: 'module' object has no attribute 'download' Directory of C:\Python32\Lib\site-packages

nltk.download()とnltk.downloader()の両方を試しましたが、どちらもエラーメッセージを表示しました。

次に、help(nltk)を使用してパッケージを取り出し、次の情報を表示します。

NAME nltk PACKAGE CONTENTS align app (package) book ccg (package) chat (package) chunk (package) classify (package) cluster (package) collocations corpus (package) data decorators downloader draw (package) examples (package) featstruct grammar help inference (package) internals lazyimport metrics (package) misc (package) model (package) parse (package) probability sem (package) sourcedstring stem (package) tag (package) test (package) text tokenize (package) toolbox tree treetransforms util yamltags FILE c:\python32\lib\site-packages
ltk

そこにダウンローダーが表示されますが、なぜ機能しないのかわかりません。 Python 3.2.2、システムWindows Vista。

alvas · Answer

TL; DR

特定のデータセット/モデルをダウンロードするには、nltk.download()関数を使用します。 punkt文のトークナイザーをダウンロードする場合は、次を使用します。

$ python3 >>> import nltk >>> nltk.download('punkt')

必要なデータ/モデルがわからない場合は、データとモデルの基本的なリストから始めることができます：

>>> import nltk >>> nltk.download('popular')

「人気のある」リソースのリストがダウンロードされます。これには次のものが含まれます。

<collection id="popular" name="Popular packages"> <item ref="cmudict" /> <item ref="gazetteers" /> <item ref="genesis" /> <item ref="gutenberg" /> <item ref="inaugural" /> <item ref="movie_reviews" /> <item ref="names" /> <item ref="shakespeare" /> <item ref="stopwords" /> <item ref="treebank" /> <item ref="Twitter_samples" /> <item ref="omw" /> <item ref="wordnet" /> <item ref="wordnet_ic" /> <item ref="words" /> <item ref="maxent_ne_chunker" /> <item ref="punkt" /> <item ref="Snowball_data" /> <item ref="averaged_perceptron_tagger" /> </collection>

編集済み

誰かがnltkから https://stackoverflow.com/a/38135306/610569 から大きなデータセットをダウンロードすることでエラーを回避している場合

$ rm /Users/<your_username>/nltk_data/corpora/panlex_lite.Zip $ rm -r /Users/<your_username>/nltk_data/corpora/panlex_lite $ python >>> import nltk >>> dler = nltk.downloader.Downloader() >>> dler._update_index() >>> dler._status_cache['panlex_lite'] = 'installed' # Trick the index to treat panlex_lite as it's already installed. >>> dler.download('popular')

更新しました

v3.2.5から、NLTKにはより有益なエラーメッセージがあります nltk_dataリソースが見つからない場合、例：

>>> from nltk import Word_tokenize >>> Word_tokenize('x') Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/Users/l/alvas/git/nltk/nltk/tokenize/__init__.py", line 128, in Word_tokenize sentences = [text] if preserve_line else sent_tokenize(text, language) File "/Users//alvas/git/nltk/nltk/tokenize/__init__.py", line 94, in sent_tokenize tokenizer = load('tokenizers/punkt/{0}.pickle'.format(language)) File "/Users/alvas/git/nltk/nltk/data.py", line 820, in load opened_resource = _open(resource_url) File "/Users/alvas/git/nltk/nltk/data.py", line 938, in _open return find(path_, path + ['']).open() File "/Users/alvas/git/nltk/nltk/data.py", line 659, in find raise LookupError(resource_not_found) LookupError: ********************************************************************** Resource punkt not found. Please use the NLTK Downloader to obtain the resource: >>> import nltk >>> nltk.download('punkt') Searched in: - '/Users/alvas/nltk_data' - '/usr/share/nltk_data' - '/usr/local/share/nltk_data' - '/usr/lib/nltk_data' - '/usr/local/lib/nltk_data' - '' **********************************************************************

関連する

nltk_dataディレクトリを検索する（自動魔法）、 https://stackoverflow.com/a/36383314/610569を参照）
nltk_dataを別のパスにダウンロードするには、 https://stackoverflow.com/a/48634212/610569 を参照してください=
config nltk_data path（つまり、NLTKに別のパスを設定してnltk_dataを見つける）については、 https： //stackoverflow.com/a/22987374/610569

Touya D. Serdan · Answer

ファイルにnltk.pyという名前を付けないでください。同じコードを使用し、nltkという名前を付けました。同じエラーが発生しました。ファイル名を変更するとうまくいきました。

B K · Answer

試して

nltk.download('all')

これにより、すべてのデータがダウンロードされ、個別にダウンロードする必要はありません。

Nursnaaz · Answer

Pipのインストール：ターミナルで実行：Sudo easy_install pip

Numpyのインストール（オプション）：実行：Sudo pip install -U numpy

NLTKのインストール：実行：Sudo pip install -U nltk

テストインストール：実行：python

次に入力：import nltk

コーパスをダウンロードするには

実行：python -m nltk.downloader all

user3682157 · Answer

インタープリターは実際のファイルからではなく、そこから読み取っているので、pythonという名前の保存済みのnltk.pyファイルを作成することはできません。

pythonシェルが読み込んでいるファイルの名前を変更し、元々やっていたことを試してください：

import nltk、次にnltk.download()

M. Mashaye · Answer

これは私のために働いた：

nltk.set_proxy('http://user:password@proxy.example.com:8080') nltk.download()

Miquel · Answer

本当に古いバージョンのnltkを実行している場合、実際に利用可能なダウンロードモジュールはありません（ reference ）

これを試して：

import nltk print(nltk.__version__)

参考文献によると、0.9.5以降は問題ありません

bala · Answer

してみてください

import nltk nltk.download()

これを実行すると、このようなものが得られます

NLTK Downloader --------------------------------------------------------------------------- d) Download l) List u) Update c) Config h) Help q) Quit ---------------------------------------------------------------------------

次に、Press d

次のように実行：

Downloader> d all

完了時に次のメッセージが表示され、プロンプトを表示してからPress qコレクションのダウンロードをすべて完了します

victor_gu · Answer

同様の問題がありました。プロキシを使用しているかどうかを確認してください。

はいの場合、ダウンロードを行う前にプロキシを設定します。

nltk.set_proxy('http://proxy.example.com:3128', ('USERNAME', 'PASSWORD'))

Arun Das · Answer

とても簡単です。

PyScripterまたは任意のエディターを開きます
pythonファイルを作成します。例：install.py
その中に以下のコードを書きます。

import nltk nltk.download()

ポップアップウィンドウが表示され、[ダウンロード]をクリックします。

The download window]

ADITYA AISHWARY · Answer

pythonのインストール中にPATHにpythonを追加する必要があります。インストール後... open cmdプロンプトタイプコマンド-pip install nltkを選択し、IDLEに移動して新しいファイルを開きます。ファイルとして保存します。 .py..thenを開いてfile.pyを入力します：import nltk

nltk.download()

Manasa · Answer

すでにファイル名nltk.pyを保存していて、再びmy_nltk_script.pyに名前を変更した場合。ファイルnltk.pyがまだ存在しているかどうかを確認してください。はいの場合、それらを削除し、ファイルmy_nltk.scripts.pyを実行します。

Jenny · Answer

http://www.nltk.org/nltk_data/ からZipファイルをダウンロードしてから、解凍して、C：\ ProgramData\Anaconda3 \などのPythonフォルダーに保存してください。 nltk_data