5

我正在使用一元语言模型。我想计算每个 unigram 的概率。我应该将 unigram 的出现次数除以不同 unigram 的数量,还是除以所有 unigram 的计数?

4

3 回答 3

11

除以训练集中的记号总数,即单词出现次数。原因很容易看出:如果除以不同单词的数量,所有单词的概率不一定总和为 1,因此它们不会形成概率分布。

于 2013-04-25T23:01:24.847 回答
2

Jurafsky 的幻灯片是一篇关于语言建模的好介绍:http: //www.stanford.edu/class/cs124/lec/languagemodeling.pdf

于 2013-04-27T00:14:20.687 回答
1

我参考了Nara Institute of Science and Technology 的PDF,但稍微修改了它的示例,使用了起始标记。

这个例子是不言自明的。

<s> i live in osaka . </s> 
<s> i am a graduate student . </s>
<s> my school is in nara . </s>

令牌总数为 23 个,包括<s></s>.

是什么p(<s> i live in nara . </s>)

p(<s>) = 3/23
p(i) = 2/23
p(live) = 1/23
p(in) = 2/23
p(nara) = 1/23
p(.) = 3/23
p(</s>) = 3/23

p(<s> i live in nara . </s>)

(3/23)*(2/23)*(1/23)*(2/23)*(1/23)*(3/23)*(3/23) = (108)*(1/23)^7     
于 2021-05-22T07:57:21.120 回答