web-dev-qa-db-ja.com

NLTKデータをダウンロードするにはどうすればよいですか?

更新された回答:NLTKは2.7でうまく機能します。 3.2がありました。 3.2をアンインストールし、2.7をインストールしました。今では動作します!!

NLTKをインストールし、NLTKデータをダウンロードしようとしました。私がやったことは、このサイトのインストルメントをフォローすることでした: http://www.nltk.org/data.html

NLTKをダウンロードしてインストールし、次のコードを実行しようとしました。

>>> import nltk
>>> nltk.download()

次のようなエラーメッセージが表示されました。

Traceback (most recent call last):
  File "<pyshell#6>", line 1, in <module>
    nltk.download()
AttributeError: 'module' object has no attribute 'download'
 Directory of C:\Python32\Lib\site-packages

nltk.download()nltk.downloader()の両方を試しましたが、どちらもエラーメッセージを表示しました。

次に、help(nltk)を使用してパッケージを取り出し、次の情報を表示します。

NAME
    nltk

PACKAGE CONTENTS
    align
    app (package)
    book
    ccg (package)
    chat (package)
    chunk (package)
    classify (package)
    cluster (package)
    collocations
    corpus (package)
    data
    decorators
    downloader
    draw (package)
    examples (package)
    featstruct
    grammar
    help
    inference (package)
    internals
    lazyimport
    metrics (package)
    misc (package)
    model (package)
    parse (package)
    probability
    sem (package)
    sourcedstring
    stem (package)
    tag (package)
    test (package)
    text
    tokenize (package)
    toolbox
    tree
    treetransforms
    util
    yamltags

FILE
    c:\python32\lib\site-packages\nltk

そこにダウンローダーが表示されますが、なぜ機能しないのかわかりません。 Python 3.2.2、システムWindows Vista。

43
Q-ximi

TL; DR

特定のデータセット/モデルをダウンロードするには、nltk.download()関数を使用します。 punkt文のトークナイザーをダウンロードする場合は、次を使用します。

$ python3
>>> import nltk
>>> nltk.download('punkt')

必要なデータ/モデルがわからない場合は、データとモデルの基本的なリストから始めることができます:

>>> import nltk
>>> nltk.download('popular')

「人気のある」リソースのリストがダウンロードされます。これには次のものが含まれます。

<collection id="popular" name="Popular packages">
      <item ref="cmudict" />
      <item ref="gazetteers" />
      <item ref="genesis" />
      <item ref="gutenberg" />
      <item ref="inaugural" />
      <item ref="movie_reviews" />
      <item ref="names" />
      <item ref="shakespeare" />
      <item ref="stopwords" />
      <item ref="treebank" />
      <item ref="Twitter_samples" />
      <item ref="omw" />
      <item ref="wordnet" />
      <item ref="wordnet_ic" />
      <item ref="words" />
      <item ref="maxent_ne_chunker" />
      <item ref="punkt" />
      <item ref="Snowball_data" />
      <item ref="averaged_perceptron_tagger" />
    </collection>

編集済み

誰かがnltkから https://stackoverflow.com/a/38135306/610569 から大きなデータセットをダウンロードすることでエラーを回避している場合

$ rm /Users/<your_username>/nltk_data/corpora/panlex_lite.Zip
$ rm -r /Users/<your_username>/nltk_data/corpora/panlex_lite
$ python

>>> import nltk
>>> dler = nltk.downloader.Downloader()
>>> dler._update_index()
>>> dler._status_cache['panlex_lite'] = 'installed' # Trick the index to treat panlex_lite as it's already installed.
>>> dler.download('popular')

更新しました

v3.2.5から、NLTKにはより有益なエラーメッセージがありますnltk_dataリソースが見つからない場合、例:

>>> from nltk import Word_tokenize
>>> Word_tokenize('x')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/Users/l/alvas/git/nltk/nltk/tokenize/__init__.py", line 128, in Word_tokenize
    sentences = [text] if preserve_line else sent_tokenize(text, language)
  File "/Users//alvas/git/nltk/nltk/tokenize/__init__.py", line 94, in sent_tokenize
    tokenizer = load('tokenizers/punkt/{0}.pickle'.format(language))
  File "/Users/alvas/git/nltk/nltk/data.py", line 820, in load
    opened_resource = _open(resource_url)
  File "/Users/alvas/git/nltk/nltk/data.py", line 938, in _open
    return find(path_, path + ['']).open()
  File "/Users/alvas/git/nltk/nltk/data.py", line 659, in find
    raise LookupError(resource_not_found)
LookupError: 
**********************************************************************
  Resource punkt not found.
  Please use the NLTK Downloader to obtain the resource:

  >>> import nltk
  >>> nltk.download('punkt')

  Searched in:
    - '/Users/alvas/nltk_data'
    - '/usr/share/nltk_data'
    - '/usr/local/share/nltk_data'
    - '/usr/lib/nltk_data'
    - '/usr/local/lib/nltk_data'
    - ''
**********************************************************************

関連する

72
alvas

ファイルにnltk.pyという名前を付けないでください。同じコードを使用し、nltkという名前を付けました。同じエラーが発生しました。ファイル名を変更するとうまくいきました。

11
Touya D. Serdan

試して

nltk.download('all')

これにより、すべてのデータがダウンロードされ、個別にダウンロードする必要はありません。

11
B K

Pipのインストール:ターミナルで実行:Sudo easy_install pip

Numpyのインストール(オプション):実行:Sudo pip install -U numpy

NLTKのインストール:実行:Sudo pip install -U nltk

テストインストール:実行:python

次に入力:import nltk

コーパスをダウンロードするには

実行:python -m nltk.downloader all

7
Nursnaaz

インタープリターは実際のファイルからではなく、そこから読み取っているので、pythonという名前の保存済みのnltk.pyファイルを作成することはできません。

pythonシェルが読み込んでいるファイルの名前を変更し、元々やっていたことを試してください:

import nltk、次にnltk.download()

5
user3682157

これは私のために働いた:

nltk.set_proxy('http://user:[email protected]:8080')
nltk.download()
4
M. Mashaye

本当に古いバージョンのnltkを実行している場合、実際に利用可能なダウンロードモジュールはありません( reference

これを試して:

import nltk
print(nltk.__version__)

参考文献によると、0.9.5以降は問題ありません

4
Miquel

してみてください

import nltk

nltk.download()

これを実行すると、このようなものが得られます

NLTK Downloader
---------------------------------------------------------------------------
   d) Download   l) List    u) Update   c) Config   h) Help   q) Quit
---------------------------------------------------------------------------

次に、Press d

次のように実行:

Downloader> d all

完了時に次のメッセージが表示され、プロンプトを表示してからPress qコレクションのダウンロードをすべて完了します

4
bala

同様の問題がありました。プロキシを使用しているかどうかを確認してください。

はいの場合、ダウンロードを行う前にプロキシを設定します。

nltk.set_proxy('http://proxy.example.com:3128', ('USERNAME', 'PASSWORD'))
3
victor_gu

とても簡単です。

  1. PyScripterまたは任意のエディターを開きます
  2. pythonファイルを作成します。例:install.py
  3. その中に以下のコードを書きます。
import nltk
nltk.download()
  1. ポップアップウィンドウが表示され、[ダウンロード]をクリックします。

The download window]

3
Arun Das

pythonのインストール中にPATHにpythonを追加する必要があります。インストール後... open cmdプロンプトタイプコマンド-pip install nltkを選択し、IDLEに移動して新しいファイルを開きます。ファイルとして保存します。 .py..thenを開いてfile.pyを入力します:import nltk

nltk.download()
2
ADITYA AISHWARY

すでにファイル名nltk.pyを保存していて、再びmy_nltk_script.pyに名前を変更した場合。ファイルnltk.pyがまだ存在しているかどうかを確認してください。はいの場合、それらを削除し、ファイルmy_nltk.scripts.pyを実行します。

0
Manasa

http://www.nltk.org/nltk_data/ からZipファイルをダウンロードしてから、解凍して、C:\ ProgramData\Anaconda3 \などのPythonフォルダーに保存してください。 nltk_data

0
Jenny