web-dev-qa-db-ja.com

Fasttext .vecと.binファイルの違い

最近、英語用のfasttext事前トレーニング済みモデルをダウンロードしました。 2つのファイルを取得しました。

  1. wiki.en.vec
  2. wiki.en.bin

2つのファイルの違いは何ですか?

16
Bhushan Pant

.vecファイルには、集約されたWordベクターのみがプレーンテキストで含まれています。 .binファイルさらにモデルパラメータと、すべてのn-gramのベクトルが含まれます。

したがって、それらのNグラム(FastTextの有名な「サブワード情報」)を使用してトレーニングしなかった単語をエンコードする場合は、need FastTextを処理できるAPIを見つける必要があります.binファイル(ほとんどが.vecファイル、ただし...)。

20
fnl

documentation が言うように、

model.vecは、Wordのベクターを1行に1つずつ含むテキストファイルです。 model.binは、ディクショナリおよびすべてのハイパーパラメータとともにモデルのパラメータを含むバイナリファイルです。

つまり、.vecファイル形式は.txtファイル形式と同じであり、他のアプリケーションで使用できます(たとえば、.vecファイルはWord2Vecによって生成された.txtファイルに類似しているため、FastTextモデルとWord2Vecモデルの間でデータを交換するために) 。また、ベクトルのトレーニングを継続する場合や最適化を再開する場合は、.binファイルを使用できます。

11
Amir