8

TF-IDF(词频-逆文档频率)是信息检索的主要内容。不过,这不是一个合适的模型,当新术语被引入语料库时,它似乎会崩溃。当查询或新文档有新术语时,人们如何处理它,特别是如果它们是高频率的。在传统的余弦匹配下,这些对总匹配没有影响。

4

2 回答 2

3

呃,不,不会崩溃。

假设我有两个文件,A“鼬鼠山羊”和 B“奶酪地鼠”。如果我们实际上将它们表示为向量,它们可能看起来像:

A [1,1,0,0]
B [0,0,1,1]

如果我们在索引文件中分配了这些向量,是的,我们在添加新术语时遇到了问题。但它的诀窍是,那个向量永远不存在。关键是倒排索引

至于不影响余弦匹配的新术语,根据您的意思,这可能是正确的。如果我用查询“marmoset kungfu”搜索我的 (A,B) 语料库,语料库中既不存在狨猴也不存在 kungfu。所以代表我的查询的向量将与集合中的所有文档正交,并得到一个糟糕的余弦相似度分数。但考虑到所有条款都不匹配,这似乎很合理。

于 2008-10-31T22:11:20.833 回答
1

当您谈论“分解”时,我认为您的意思是新术语对相似性度量没有影响,因为它们在原始词汇表定义的向量空间中没有任何表示。

处理此平滑问题的一种方法是考虑将词汇表固定为较小的词汇表,并将所有比某个阈值稀有的词视为属于特殊_UNKNOWN_词。

但是,我认为您对“崩溃”的定义不是很清楚。你能澄清你的意思吗?如果你能澄清这一点,也许我们可以讨论解决这些问题的方法。

于 2008-12-31T22:15:25.173 回答