据说通过 LSI,产生 U、A 和 V 的矩阵,它们将具有同义词的文档汇集在一起。例如,如果我们搜索“汽车”,我们也会得到包含“汽车”的文档。但是 LSI 只不过是对矩阵的操作。它只考虑频率,而不考虑语义。那么我想念的这个魔法背后的东西是什么?请解释。
问问题
820 次
2 回答
0
根据维基百科的文章,“LSI 是基于在相同上下文中使用的词往往具有相似含义的原则。” 也就是说,如果两个词似乎可以互换使用,它们可能是同义词。
这不是万无一失的。
于 2009-11-20T15:18:50.557 回答
0
LSI 基本上为每个文档创建一个频率配置文件,并寻找具有相似频率配置文件的文档。如果频率配置文件的其余部分足够相似,它会将两个文档归类为非常相似,即使其中一个系统地替换了一些单词。相反,如果频率配置文件不同,它可以/将会将文档分类为不同的,即使它们共享一些特定术语的频繁使用(例如,“文件”在某些情况下与计算机相关,并且用于在其他情况下切割和平滑金属)。
LSI 通常也用于相对较大的文档组。其他文档也可以帮助找到相似之处——即使文档 A 和 B 看起来大不相同,如果文档 C 使用 A 和 B 中的相当多的术语,它可以帮助发现 A 和 B 非常相似。
于 2009-11-21T02:52:39.510 回答