web-dev-qa-db-ja.com

nltkライブラリのインポート時にコーパス/ストップワードが見つかりません

python 2.7にnltkパッケージをインポートしようとしています

  import nltk
  stopwords = nltk.corpus.stopwords.words('english')
  print(stopwords[:10])

これを実行すると、次のエラーが表示されます。

LookupError: 
**********************************************************************
Resource 'corpora/stopwords' not found.  Please use the NLTK
Downloader to obtain the resource:  >>> nltk.download()

したがって、python terminを開き、次のことを行いました。

import nltk  
nltk.download()

それは私に与えます:

showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml

しかし、これは止まらないようです。再度実行しても、同じエラーが発生します。これがうまくいかないという考えはありますか?

33

現在、nltkデータのすべてのアイテムをダウンロードしようとしているため、これには時間がかかる可能性があります。必要なストップワードのみをダウンロードしてみてください。

import nltk
nltk.download('stopwords')
49
Kurt Bourbaki

here by Kurt Bourbaki ですが、コマンドラインでは:

python -m nltk.downloader stopwords
17
Rafael Valero

コンソールで個別にこれを行うことができます。
結果が表示されます。

import nltk
nltk.download('stopwords')

この問題に直面したときにjupyterコンソールを使用しました。

6
Umesh

PCが接続にプロキシを使用している場合、これを試してください:

import nltk

nltk.set_proxy('http://proxy.example.com:3128', ('USERNAME', 'PASSWORD'))
nltk.download('stopwords')
1
R Kumar

Python 3のコマンドラインにこれ​​を入力できます。

python3 -m nltk.downloader stopwords
1
Ehsan