machine-learning - 如何使用 MLE 训练 n-gram 模型？

Question

我学习了很多关于使用 MLE 训练 n-gram 模型的文档，但是当我注意到所有的实现只是通过计算 n-gram 来计算条件概率时，我的问题是与 MLE 有什么关系？

score 1 · Accepted Answer

直观地说，你必须计算世界上所有文本中的所有 n-gram 来计算它们的概率。由于这是非常不切实际的，MLE 提供了一种通过在给定语料库中计数来估计这些 n-gram 概率的方法。

例如，如果您需要单词y跟在单词x之后的二元概率，您可以将它们的出现次数计算为一对，。然后，您必须通过将其除以以x开头的所有二元组的总和来标准化该计数（即：x后跟每个可能的单词），以便 MLE 估计最终位于 0 和 1 之间。

因此，这个二元概率可以通过以下表达式来估计：

请注意，此表达式可以进一步简化，因为以 x 开头的所有二元组计数的总和必须与x本身的一元组计数相加：

1 回答 1