0

我试图了解 Gensim 实现中 word2vec 和 doc2vec 向量之间的关系。在我的应用程序中,我使用相同的标签(主题)标记多个文档,我正在使用 dbow_words=1 在我的语料库上训练一个 doc2vec 模型,以便也训练词向量。我已经能够以这种方式获得单词和文档向量之间的相似性,这对于 ex 来说确实很有意义。获取类似于单词的文档标签- doc2vec_model.docvecs.most_similar(positive = [doc2vec_model["management"]], topn = 50))

然而,我的问题是关于 word2vec 和 doc2vec 向量之间计算相似度的理论解释。假设在具有相同维度 (d = 200) 的相同语料库上进行训练时,始终可以比较词向量和文档向量以找到文档标签的相似词或单词的相似文档标签,是否可以安全地假设。任何建议/想法都是最受欢迎的。

问题 2:我的其他问题是关于最终 word2vec 模型中单词的高/低频率的影响。如果 wordA 和 wordB 在特定的文档标签(集合)中具有相似的上下文,但 wordA 的频率比 wordB 高得多,那么 wordB 与相应的文档标签是否具有更高的相似度分数。我正在尝试通过以时间方式对语料库进行采样来训练多个 word2vec 模型,并且想知道随着单词变得越来越频繁的假设,假设上下文相对保持相似,与文档标签的相似度得分也会增加。我做这个假设错了吗?非常欢迎任何建议/想法。

谢谢,马尼什

4

1 回答 1

1

在训练期间可以互换使用词向量和文档标签向量的训练模式中,对于相同的周围词预测任务,它们往往具有有意义的可比性。(您的模式,带有交错式skip-gram单词训练的DBOW,适合这一点,并且是论文' Document Embedding with Paragraph Vectors '使用的模式。)

您的第二个问题是抽象和推测性的;我认为您必须自己测试这些想法。Word2Vec/Doc2Vec 过程训练向量以擅长某些机械的词预测任务,受模型的约束和与其他向量质量的权衡。由此产生的空间安排恰好可用于其他目的——排名/绝对相似性、沿某些概念线的相似性、分类等——这只是一个观察到的、实用的好处。这是一个“有效的技巧”,可能会产生见解,但模型响应不同参数选择或语料库特征的许多变化方式尚未在理论上或实验上得到解决。

于 2017-01-19T03:35:24.007 回答