事前トレーニングされたdoc2vecモデルはありますか？

Question

ウィキペディアなどのように、大量のデータセットを含む事前トレーニング済みのdoc2vecモデルはありますか？

gojomo · Answer

いいものは知りません。このプロジェクトからリンクされているものがありますが、

古いgensimからのカスタムフォークに基づいているため、最近のコードでは読み込まれません
どのパラメーターまたはどのデータでトレーニングされたかは明確ではありません。関連する論文では、パラメーターの影響について無知の選択が行われた可能性があります
wikipediaの記事（400万以上）や記事の段落（数百万）の実際のdoc-vector、または多数のWord-vectorを含めるには適切なサイズではないため、明確ではありません。捨てられたもの

長い時間とかなりの量の作業RAMが必要ですが、gensimに含まれているWikipediaからのDoc2Vecモデルの作成を示すJupyterノートブックがあります。

したがって、私はあなたの試みの間違いを修正することをお勧めします。（そして、モデルの作成に成功し、他の人のためにそれを文書化したい場合、他の人が再利用できるようにどこかにアップロードすることができます。）

Moniba · Answer

はい！私はこれで2つの事前訓練されたdoc2vecモデルを見つけることができました link

しかし、ツイートでトレーニングされた事前トレーニング済みのdoc2vecモデルはまだ見つかりませんでした