web-dev-qa-db-ja.com

構造化されたデータを含む英語の辞書はどこで入手できますか?

英語の辞書をダウンロードしたい-Word listだけでなく、TXTなどの構造化された形式で、 XML、またはSQL。

具体的には、音声発音品詞が必要です(定義は必須)。

驚いたことに、私はこれをオンラインでどこでも見つけることができません。 ウィクショナリー が利用可能 ダウンロード用 ですが、これはMediaWikiの記事そのものです。すべての記事をクロールし、音声学と品詞を抽出することは、大きな練習になります。

これはどこでも利用できますか?払ってもかまわない。

編集:何人かが私が何をしたいか尋ねました。私の当面の必要性は、たとえば「最も一般的な2音節の動詞は何か」などの好奇心だけです。結局のところ、私の希望は、利用可能なドメイン名を見つけるのに役立つツールであり、正しい品詞と音声一致のボーナスポイントを組み合わせることで可能になります。

注: English Language and Usageにクロスポストされます

37
Portman

http://www.speech.cs.cmu.edu/cgi-bin/cmudict にアクセスすると、発音辞書のダウンロードページが https:// cmusphinxにあります。 svn.sourceforge.net/svnroot/cmusphinx/trunk/cmudict/

最新バージョンは現在cmudict.0.7aです。

これは http://www.haikuvillage.com の音節カウンターを実装するために現在使用しているものです。それはRubyにあります。それが役に立ったら、私はあなたのためにそれをオープンソース化したいと思います。

17
matthuhiggins

高度に構造化された形式のパブリックドメインの音声辞書の一部: http://icon.shef.ac.uk/Moby/mpos.html

各行は、×で区切られたエントリで、左側がWord値、右側が品詞値(動詞など)です。シンプルなテキストファイル。

8
user2661580

Wordnetは、私が知っている最高の辞書の1つです。おそらくあなたはそこに何かを見つけるでしょう: http://wordnet.princeton.edu/wordnet/related-projects/

6
chris

Portman、DevExpressの SpellCheckerツールを使用している間 OpenOffice辞書が存在する ことを知っていました 私はそれらが明確に定義されたデータ構造を持っていると確信しています。これを無料/有料のテキスト読み上げツールと組み合わせて使用​​することをお勧めします。

お役に立てれば幸いです。

2
Ramon Araujo

これは質問への直接の回答ではありませんが、検索エンジンアプリケーションサーバー(Solrなど)に一致する単語またはフレーズを見つけるには、Double Metaphoneアルゴリズムが非常に適しています。

これの使用目的がわからないので、私の提案が役に立ったかどうかはわかりません。意図した用途に近い場合、Double Metaphoneに関するWikipediaのページに、約12の実装のリストがあり、探索する価値があります。

http://en.wikipedia.org/wiki/Double_Metaphone

1
Chris Adragna