我学习了很多关于使用 MLE 训练 n-gram 模型的文档,但是当我注意到所有的实现只是通过计算 n-gram 来计算条件概率时,我的问题是与 MLE 有什么关系?
问问题
1051 次
1 回答
1
直观地说,你必须计算世界上所有文本中的所有 n-gram 来计算它们的概率。由于这是非常不切实际的,MLE 提供了一种通过在给定语料库中计数来估计这些 n-gram 概率的方法。
例如,如果您需要单词y跟在单词x之后的二元概率,您可以将它们的出现次数计算为一对,。然后,您必须通过将其除以以x开头的所有二元组的总和来标准化该计数(即:x后跟每个可能的单词),以便 MLE 估计最终位于 0 和 1 之间。
因此,这个二元概率可以通过以下表达式来估计:
请注意,此表达式可以进一步简化,因为以 x 开头的所有二元组计数的总和必须与x本身的一元组计数相加:
于 2016-07-22T10:26:50.003 回答