我在 Pandas 中有两列:A 和 B,每列都包含术语字符串。我的目标是在 B 列中找到与 A 列最相似的条目。我已经在使用 TF-IDF 来执行此操作,但有时存在不明显匹配的同义词,例如货币和货币。
如何找到还包含同义词的匹配项?
我在 Pandas 中有两列:A 和 B,每列都包含术语字符串。我的目标是在 B 列中找到与 A 列最相似的条目。我已经在使用 TF-IDF 来执行此操作,但有时存在不明显匹配的同义词,例如货币和货币。
如何找到还包含同义词的匹配项?
如果您使用单个单词对,我不确定 TF-IDF 将如何在这里使用。
无论如何,有两个明显的解决方案。
使用传统的知识库,我会为这个用例推荐Wordnet,它被广泛认为是行业中的标准。
第二种选择是使用机器学习算法 Word2Vec(或 Glove 之类的变体)。我会说这是最简单的解决方案,如果您使用的模型已经像Google 新闻一样经过训练。查看Gensim 的实现以加载模型并计算相似性。