computer-science - 如何在语义上比较文本

Question

假设您有一堆书籍描述。什么是使该文本相互可比的技术，所以我可以将具有相似主题的书籍分组。

score 3 · Accepted Answer

有大量的算法和技术可用于确定两个文本单元的相似性。如果您不关心含义，而只是对两个字符串的词汇相似性感兴趣，那么有很多字符串相似性技术，其中 Levenshtein 距离是最著名的，即使不是最好的. 但是，您明确表示您需要语义相似性，因此有关潜在语义分析的 WikiPedia 页面将为您提供一个很好的起点。非常粗略地说，LSA 会查找包含高于平均出现频率的不常用术语（单词或词组）的文档，并根据不常用术语的使用频率对文档进行聚类。

score 0 · Accepted Answer

如果您想在句子级别进行比较，我建议您使用 Jaccard 的相似系数。将每个句子视为最小单位。您可以根据需要深入到单词。这并不能真正解决问题的“语义”部分，但可以作为一个很好的字符串相似性算法。

computer-science - 如何在语义上比较文本

2 回答 2

Related

Reference