如何使用 WordNet 确定 python 中两个文本之间的语义相似性?
明显的预处理将是删除停用词和词干,但是然后呢?
我能想到的唯一方法是计算两个文本中每个单词之间的 WordNet 路径距离。这是 unigram 的标准。但这些是大型(400 字)文本,它们是自然语言文档,其中的单词没有任何特定的顺序或结构(除了英语语法规定的那些)。那么,您会比较文本之间的哪些词?你会如何在 python 中做到这一点?
如何使用 WordNet 确定 python 中两个文本之间的语义相似性?
明显的预处理将是删除停用词和词干,但是然后呢?
我能想到的唯一方法是计算两个文本中每个单词之间的 WordNet 路径距离。这是 unigram 的标准。但这些是大型(400 字)文本,它们是自然语言文档,其中的单词没有任何特定的顺序或结构(除了英语语法规定的那些)。那么,您会比较文本之间的哪些词?你会如何在 python 中做到这一点?
您可以做的一件事是:
还有另一种方法。从每个文档中的句子中计算句子树。然后比较两个森林。我很久以前为一门课程做过一些类似的工作。这是代码(请记住,这是很久以前的事了,而且是上课用的。所以至少可以说,代码非常hacky)。
希望这可以帮助