web-dev-qa-db-ja.com

事前トレーニングされたdoc2vecモデルはありますか?

ウィキペディアなどのように、大量のデータセットを含む事前トレーニング済みのdoc2vecモデルはありますか?

7
Idriss Brahimi

いいものは知りません。 このプロジェクト からリンクされているものがありますが、

  • 古いgensimからのカスタムフォークに基づいているため、最近のコードでは読み込まれません
  • どのパラメーターまたはどのデータでトレーニングされたかは明確ではありません。関連する論文では、パラメーターの影響について無知の選択が行われた可能性があります
  • wikipediaの記事(400万以上)や記事の段落(数百万)の実際のdoc-vector、または多数のWord-vectorを含めるには適切なサイズではないため、明確ではありません。捨てられたもの

長い時間とかなりの量の作業RAMが必要ですが、gensimに含まれているWikipediaからのDoc2Vecモデルの作成を示すJupyterノートブックがあります。

https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-wikipedia.ipynb

したがって、私はあなたの試みの間違いを修正することをお勧めします。 (そして、モデルの作成に成功し、他の人のためにそれを文書化したい場合、他の人が再利用できるようにどこかにアップロードすることができます。)

4
gojomo

はい!私はこれで2つの事前訓練されたdoc2vecモデルを見つけることができました link

しかし、ツイートでトレーニングされた事前トレーニング済みのdoc2vecモデルはまだ見つかりませんでした

3
Moniba