web-dev-qa-db-ja.com

NLTK利用可能な言語は、ストップワードの言語

NLTKストップワードのサポートされているLANG(およびその鍵)の全リストを見つけることができる場所は疑問に思います。

リストがあります https://pypi.org/project/stop-words/ でありますが、各国のキーは含まれていません。そのため、単にリストを取得できる場合は明確ではありません。stopwords.words("Bulgarian")。実際、それはエラーをスローします。

私はNLTKサイトをチェックし、「ストップワード」と一致する4つの文書がありますが、それらのどれも説明していません。 https://www.nltk.org/search.html?q = stopwords&check_keywords = yes&area=default

そして、彼らの本では何も言われていません。 http://www.nltk.org/book/ch02.html#stopwords_index_term

それで、あなたはキーのリストをどこで見つけることができますか?

7
gal007

最初にnltkパッケージをダウンロードしたかどうかを確認してください。
[。]であれば、下記でダウンロードできます。

_import nltk
nltk.download()
_

その後、下のパスにストップワード言語ファイルを見つけることができます。

_C:/Users/username/AppData/Roming/nltk_data/corpora/stopwords
_

それによってサポートされている21の言語があります(私はnltk数日後にインストールされているので、この数は最新のものでなければなりません)。ファイル名をパラメータのINに渡すことができます

nltk.corpus.stopwords.words('langauage')

2
Sociopath
os.listdir('/root/nltk_data/corpora/stopwords/')

['hungarian',
 'swedish',
 'kazakh',
 'norwegian',
 'finnish',
 'arabic',
 'indonesian',
 'portuguese',
 'turkish',
 'azerbaijani',
 'slovene',
 'spanish',
 'danish',
 'nepali',
 'romanian',
 'greek',
 'dutch',
 'README',
 'tajik',
 'german',
 'english',
 'russian',
 'french',
 'italian']
 _
5

以下のストップワードをインポートすると

from nltk.corpus import stopwords
english_stopwords = stopwords.words(language)
 _

fileID(言語)に基づいてストップワードを取得しています。利用可能なすべてのストップワード言語を見るために、次のようにしてファイルIDのリストを取得できます。

from nltk.corpus import stopwords
print(stopwords.fileids())
 _

nLTK v3.4.5の場合、これは23の言語を返します。

['arabic', 
 'azerbaijani', 
 'danish', 
 'dutch', 
 'english', 
 'finnish', 
 'french', 
 'german', 
 'greek',
 'hungarian', 
 'indonesian', 
 'italian', 
 'kazakh', 
 'nepali', 
 'norwegian', 
 'portuguese', 
 'romanian', 
 'russian', 
 'slovene', 
 'spanish', 
 'swedish', 
 'tajik', 
 'turkish']
 _
2
thechill