web-dev-qa-db-ja.com

テキストファイルから独自のNLTKテキストを作成するにはどうすればよいですか?

私は文学の大学院生で、自然言語処理のO'Reillyの本(nltk.org/book)を読んでいます。それは信じられないほど便利に見えます。第1章では、コンコーダンスなど、すべてのサンプルテキストとタスク例をいじってみました。 Moby Dickが「クジラ」という言葉を何回使用したかがわかりました。問題は、自分のテキストの1つでこれらの計算を行う方法を理解できないことです。私は自分のコーパスを作成する方法についての情報を見つけましたが(O'Reillyの本のCh。2)、それがまさに私がやりたいことだとは思いません。つまり、できるようになりたい

import nltk 
text1.concordance('yellow')

テキストで「黄色」という単語が使用されている場所を取得します。現時点では、サンプルテキストでこれを行うことができますが、私自身ではできません。

私はpythonとプログラミングに非常に慣れていないので、これは非常にエキサイティングですが、非常に混乱します。

32
Jonathan

自分で答えを見つけました。それは恥ずかしいです。または素晴らしい。

Ch。から3:

f=open('my-file.txt','rU')
raw=f.read()
tokens = nltk.Word_tokenize(raw)
text = nltk.Text(tokens)

トリックを行います。

56
Jonathan

複数のファイルの構造化されたインポートの場合:

from nltk.corpus import PlaintextCorpusReader

# RegEx or list of file names
files = ".*\.txt"

corpus0 = PlaintextCorpusReader("/path/", files)
corpus  = nltk.Text(corpus0.words())

参照: NLTK 3本 /セクション1.9

14
Raffael