Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
假设您有一堆书籍描述。什么是使该文本相互可比的技术,所以我可以将具有相似主题的书籍分组。
有大量的算法和技术可用于确定两个文本单元的相似性。如果您不关心含义,而只是对两个字符串的词汇相似性感兴趣,那么有很多字符串相似性技术,其中 Levenshtein 距离是最著名的,即使不是最好的. 但是,您明确表示您需要语义相似性,因此有关潜在语义分析的 WikiPedia 页面将为您提供一个很好的起点。非常粗略地说,LSA 会查找包含高于平均出现频率的不常用术语(单词或词组)的文档,并根据不常用术语的使用频率对文档进行聚类。
如果您想在句子级别进行比较,我建议您使用 Jaccard 的相似系数。将每个句子视为最小单位。您可以根据需要深入到单词。这并不能真正解决问题的“语义”部分,但可以作为一个很好的字符串相似性算法。