When we are training our model we usually use MLE to estimate our model. I know it means that the most probable data for such a learned model is our training set. But I'm wondering if its probability match 1 exactly or not?
3 回答
你几乎是对的。模型的可能性 ( theta
) 对于观察到的数据 ( X
) 是观察的概率X
,给定theta
:
L(theta|X) = P(X|theta)
对于最大似然估计 (MLE),您选择theta
提供 的最大值的值P(X|theta)
。这并不一定意味着 的观测值X
最有可能用于 的 MLE 估计theta
。这只是意味着没有其他值theta
可以为 的观察值提供更高的概率X
。
换句话说,如果T1
是 的 MLE 估计theta
,并且如果T2
是 的任何其他可能值theta
,则P(X|T1) > P(X|T2)
。但是,数据 ( ) 的另一个可能值仍可能Y
与观察到的数据 ( ) 不同X
,因此P(Y|T1) > P(X|T1)
。
X
的 MLE 估计的概率theta
不一定是 1(除了微不足道的情况外,可能永远不会是)。这是预期的,因为X
可以采用具有非零概率的多个值。
以 bogatron 举例说明的内容为基础,从 MLE 中学习到的参数能够最好地解释您所看到的数据(仅此而已)。不,概率不是 1(微不足道的情况除外)。
作为 MLE 所做的一个示例(已被使用数十亿次)是:
如果您有一个简单的抛硬币问题,并且您观察到 5 个抛硬币的结果(H、H、H、T、H)并进行 MLE,您最终会给出 p(coin_toss == H) 的高概率( 0.80)因为你看到 Heads 的次数太多了。显然,MLE 有好有坏……
优点:这是一个优化问题,因此通常可以很快解决(即使没有解析解)。缺点:当没有大量数据时它可能会过拟合(例如我们的抛硬币示例)。
我在我的统计类中得到的例子如下:
嫌疑人在逃!对它们一无所知,除了它们大约有 1 米 80 高。警察应该找男人还是女人?
这里的想法是您的模型 () 有一个参数,以及给定该参数M/F
的概率。有高男、高女、矮男和矮女。但是,在没有任何其他信息的情况下,男性 1 米 80 的概率大于女性 1 米 80 的概率。可能性(正如 bogatron 很好解释的那样)是其形式化,最大似然是基于更可能导致实际观察结果的有利参数的估计方法。
但这只是一个玩具示例,只有一个二进制变量……让我们稍微扩展一下:我扔了两个相同的骰子,它们的值之和为 7。我的骰子有几面?嗯,我们都知道两个D6和为7的概率是相当高的。但也可能是D4,D20,D100,...但是,,P(7 | 2D6) > P(7 | 2D20)
和P(7 | 2D6) > P(7 | 2D100)
...,所以你估计我的骰子是6面的。这并不意味着它是真的,但它是一个合理的估计,在没有任何额外信息的情况下。
这更好,但我们还没有进入机器学习领域......让我们开始吧:如果你想在一些经验数据上拟合你的 umptillion-layer 神经网络,你可以考虑所有可能的参数化,以及它们中的每一个的可能性有多大是返回经验数据。那是在探索一个多维空间,每个维度都有无限多的可能性,但你可以将这些点中的每一个都映射到一个可能性。然后使用这些参数来拟合您的网络是合理的:鉴于确实出现了经验数据,因此可以合理地假设它们应该可能在您的模型下。
这并不意味着您的参数很可能!只是在这些参数下,观察值很可能。统计估计通常不是单一解决方案的封闭问题(例如求解方程可能是,并且您的概率为 1),但我们需要根据某些度量找到最佳解决方案。似然度就是这样一个度量标准,并且被广泛使用是因为它具有一些有趣的特性:
- 它具有直观的意义
- 对于大量模型,计算、拟合和优化相当简单
- 对于正态变量(往往随处可见),MLE 给出与其他方法相同的结果,例如最小二乘估计
- 它在条件概率方面的表述使其易于在贝叶斯框架中使用/操作