テキストファイルから独自のNLTKテキストを作成するにはどうすればよいですか？

Question

私は文学の大学院生で、自然言語処理のO'Reillyの本（nltk.org/book）を読んでいます。それは信じられないほど便利に見えます。第1章では、コンコーダンスなど、すべてのサンプルテキストとタスク例をいじってみました。 Moby Dickが「クジラ」という言葉を何回使用したかがわかりました。問題は、自分のテキストの1つでこれらの計算を行う方法を理解できないことです。私は自分のコーパスを作成する方法についての情報を見つけましたが（O'Reillyの本のCh。2）、それがまさに私がやりたいことだとは思いません。つまり、できるようになりたい

import nltk 
text1.concordance('yellow')

テキストで「黄色」という単語が使用されている場所を取得します。現時点では、サンプルテキストでこれを行うことができますが、私自身ではできません。

私はpythonとプログラミングに非常に慣れていないので、これは非常にエキサイティングですが、非常に混乱します。

import nltk text1.concordance('yellow')

テキストで「黄色」という単語が使用されている場所を取得します。現時点では、サンプルテキストでこれを行うことができますが、私自身ではできません。

私はpythonとプログラミングに非常に慣れていないので、これは非常にエキサイティングですが、非常に混乱します。

Jonathan · Accepted Answer

自分で答えを見つけました。それは恥ずかしいです。または素晴らしい。

Ch。から3：

f=open('my-file.txt','rU') raw=f.read() tokens = nltk.Word_tokenize(raw) text = nltk.Text(tokens)

トリックを行います。

Raffael · Answer

複数のファイルの構造化されたインポートの場合：

from nltk.corpus import PlaintextCorpusReader # RegEx or list of file names files = ".*\.txt" corpus0 = PlaintextCorpusReader("/path/", files) corpus = nltk.Text(corpus0.words())

参照： NLTK 3本 /セクション1.9