python - Python 文本匹配 - 同义词

Question

我在 Pandas 中有两列：A 和 B，每列都包含术语字符串。我的目标是在 B 列中找到与 A 列最相似的条目。我已经在使用 TF-IDF 来执行此操作，但有时存在不明显匹配的同义词，例如货币和货币。

如何找到还包含同义词的匹配项？

score -1 · Accepted Answer

如果您使用单个单词对，我不确定 TF-IDF 将如何在这里使用。

无论如何，有两个明显的解决方案。

使用传统的知识库，我会为这个用例推荐Wordnet，它被广泛认为是行业中的标准。

第二种选择是使用机器学习算法 Word2Vec（或 Glove 之类的变体）。我会说这是最简单的解决方案，如果您使用的模型已经像Google 新闻一样经过训练。查看Gensim 的实现以加载模型并计算相似性。

1 回答 1