我试图了解 NLP 中的最大可能性是什么。我在看这个演示文稿:
http://www.phontron.com/slides/nlp-programming-en-01-unigramlm.pdf(第 9 页)
我在 Manning 和 Schütze 的《统计语言处理基础》中看到了相同的方程式。
现在,我理解 MLE 的方式是这样的:
我知道实验的结果,我知道潜在的分布,但我不知道单个事件的概率。MLE 通过查找在我的观察中最有可能的概率值来帮助我找到概率(或更一般的未知参数)。
所以 MLE 告诉我,当任何单个事件的概率为 x 时,观察某个事件的概率最高。
现在,如果这是真的,为什么那张幻灯片上没有微积分?为什么在这种情况下 MLE 是用一个简单的分数计算的?我不明白这与 MLE 有什么关系?
我想,MLE 是一个最大化问题......?