1

我学习了很多关于使用 MLE 训练 n-gram 模型的文档,但是当我注意到所有的实现只是通过计算 n-gram 来计算条件概率时,我的问题是与 MLE 有什么关系?

4

1 回答 1

1

直观地说,你必须计算世界上所有文本中的所有 n-gram 来计算它们的概率。由于这是非常不切实际的,MLE 提供了一种通过在给定语料库中计数来估计这些 n-gram 概率的方法。

例如,如果您需要单词y跟在单词x之后的二元概率,您可以将它们的出现次数计算为一对,C(xy)。然后,您必须通过将其除以以x开头的所有二元组的总和来标准化该计数(即:x后跟每个可能的单词),C(xz) 在所有 z 上的总和以便 MLE 估计最终位于 0 和 1 之间。

因此,这个二元概率可以通过以下表达式来估计:

P(y|x) = C(xy) / C(xz) 在所有 z 上的总和

请注意,此表达式可以进一步简化,因为以 x 开头的所有二元组计数的总和必须x本身的一元组计数相加:

P(y|x) = C(xy) / (x)

于 2016-07-22T10:26:50.003 回答