python - python word2vec 使用周围单词的上下文相似度

Question

我想使用 w2v 制作的嵌入，以便在给定上下文（周围的词）的情况下获得最有可能的替代词，而不是提供单个词。

示例：句子 = '我想明天放学后去公园'

如果我想找到类似于“park”的候选者，通常我会利用 Gensim 模型中的相似性函数

model.most_similar('park')

并获得语义相似的词。然而，这可以给我类似于动词“公园”的词，而不是我所追求的名词“公园”。

有什么方法可以查询模型并将其周围的单词作为上下文以提供更好的候选者？

score 3 · Accepted Answer

Word2vec 主要不是单词预测算法。在内部，它尝试进行半预测，以训练其词向量，但通常这些训练预测并不是词向量所需的最终用途。

也就是说，最近版本的 gensim 添加了一种predict_output_word()方法，该方法（对于某些模型模式）近似于训练期间所做的预测。它可能对您的目的有用。

或者，检查与上下文词有些相似most_similar()的初始目标词的词可能会有所帮助。

有一些关于在词向量训练期间消除多种词义歧义的研究论文（比如“to /park/ a car”与“walk in a /park/”），但我还没有看到它们在开源中实现图书馆。

1 回答 1