1

在对三元组进行平滑的愚蠢退避中,如果未找到三元组,则我们回退到二元组,如果也未找到二元组,我们将回退到一元组。但是,如果语料库中不存在 unigram 怎么办。在愚蠢的退避部分下的论文中提到

递归以 unigrams 结束

那么应该将什么概率分配给训练数据集中不存在的全新一元组。

4

1 回答 1

0

一种解决方案是为 zerograms 分配 1/V 的概率,其中 V 是词汇表的大小。或者,或者,用关键字(例如:UNK)替换语料库中的稀有词,并计算初始语料库中的相应概率。

于 2018-10-31T12:56:50.143 回答