python - 如何在 gensim 中加载预训练模型并用它训练 doc2vec？

Question

我正在准备一个我已经训练过的 word2vec 模型。我已将其序列化为 CSV 文件：

word,  v0,     v1,     ..., vN
house, 0.1234, 0.4567, ..., 0.3461
car,   0.456,  0.677,  ..., 0.3461

我想知道的是如何加载该词向量模型gensim并使用它来训练段落或 doc2vec 模型。

这个Doc2Vec 教程说我可以以“”的形式加载模型，# C text format但我不知道这实际上意味着什么。首先是什么是“C 文本格式”，但更重要的是：

如何加载我的 word2vec 模型并将其用于 doc2vec 培训？

如何从我的 word2vec 模型构建词汇表？

score 1 · Accepted Answer

Doc2Vec 不需要词向量作为输入：它会创建自己训练期间需要的任何词向量。（还有一些模式，比如纯 DBOW——dm=0, dbow_words=0根本不使用或训练词向量。）

使用词向量植入 Doc2Vec 模型可能有帮助，也可能有害；没有太多理论或已发表的结果可以提供指导。Word2Vec 上有一个实验方法intersect_word2vec_format()，可以将 word2vec-c-format 向量合并到具有现有词汇表的模型中，但是您需要查看源代码才能真正理解它的假设：

https://github.com/RaRe-Technologies/gensim/blob/51753b95415bbc344ea6af671818277464905ea2/gensim/models/word2vec.py#L1140

python - 如何在 gensim 中加载预训练模型并用它训练 doc2vec？

1 回答 1

Related

Reference