information-retrieval - 信息检索中的部分规范

Question

您好，我接到了有关信息检索的任务，但我不知道如何创建该部分规范，我的意思是像这里这样的词的价值：http: //nlp.stanford.edu/IR-book/html/htmledition/finite-自动机和语言模型 1.html

= 0.2

a = 0.1

青蛙 = 0.01... 等等。如果有人解释如何计算这些值，我将不胜感激。

了解语言模型！

a) 解释这个想法！

b) 考虑以下文档集合：

D1：今天是晴天。阳光明媚的柏林！生存还是毁灭。

D2：她今天在柏林。她是一个阳光明媚的女孩。柏林总是令人兴奋！

计算每个文档对应的一元语言模型！假设停止概率在模型之间是固定的（并且等于 0:2）。使用这些模型对给定查询 \sunny Berlin" 的文档进行排名！

score 0 · Accepted Answer

这些词的价值不在页面上计算。是从模型定义的统计中获得的。

例如，如果你看下面的图片，有两个不同的模型，每个单词的概率不同。作为模型的设计者，您需要自己定义概率。

在此处输入图像描述

如果你不明白什么是语言模型，这里有一个简单的例子：

想象一下住在伦敦的人有一种语言模型 M1，而住在纽约的人有另一种语言模型 M2。

根据一些统计数据，我们知道伦敦人使用“晴天”这个词的次数是纽约人的两倍（无论出于何种原因），因此在 M1 中使用“晴天”的概率为 0.04，在 M2 中“晴天”=0.02。参考其他文本 TV、Magazine 等，我们可以定义 London(M1) 和 NY(M2) 的人使用其他词的“概率”，我们创建一个如上所示的表格。

现在我们有一个句子“她是一个阳光明媚的女孩”，我们不知道它来自伦敦或纽约的人。

参考表格，我们可以猜测这更有可能来自伦敦人 (M1)，因为他们更多地使用这个词！

information-retrieval - 信息检索中的部分规范

1 回答 1

Related

Reference