1

When we are training our model we usually use MLE to estimate our model. I know it means that the most probable data for such a learned model is our training set. But I'm wondering if its probability match 1 exactly or not?

4

3 回答 3

5

你几乎是对的。模型的可能性 ( theta) 对于观察到的数据 ( X) 是观察的概率X,给定theta

L(theta|X) = P(X|theta)

对于最大似然估计 (MLE),您选择theta提供 的最大值的值P(X|theta)。这并不一定意味着 的观测值X最有可能用于 的 MLE 估计theta。这只是意味着没有其他值theta可以为 的观察值提供更高的概率X

换句话说,如果T1是 的 MLE 估计theta,并且如果T2是 的任何其他可能值theta,则P(X|T1) > P(X|T2)。但是,数据 ( ) 的另一个可能值仍可能Y与观察到的数据 ( ) 不同X,因此P(Y|T1) > P(X|T1)

X的 MLE 估计的概率theta不一定是 1(除了微不足道的情况外,可能永远不会是)。这是预期的,因为X可以采用具有非零概率的多个值。

于 2015-06-04T23:31:47.590 回答
3

以 bogatron 举例说明的内容为基础,从 MLE 中学习到的参数能够最好地解释您所看到的数据(仅此而已)。不,概率不是 1(微不足道的情况除外)。

作为 MLE 所做的一个示例(已被使用数十亿次)是:

如果您有一个简单的抛硬币问题,并且您观察到 5 个抛硬币的结果(H、H、H、T、H)并进行 MLE,您最终会给出 p(coin_toss == H) 的高概率( 0.80)因为你看到 Heads 的次数太多了。显然,MLE 有好有坏……

优点:这是一个优化问题,因此通常可以很快解决(即使没有解析解)。缺点:当没有大量数据时它可能会过拟合(例如我们的抛硬币示例)。

于 2015-06-05T01:07:08.097 回答
2

我在我的统计类中得到的例子如下:

嫌疑人在逃!对它们一无所知,除了它们大约有 1 米 80 高。警察应该找男人还是女人?

这里的想法是您的模型 () 有一个参数,以及给定该参数M/F的概率。有高男、高女、矮男和矮女。但是,在没有任何其他信息的情况下,男性 1 米 80 的概率大于女性 1 米 80 的概率。可能性(正如 bogatron 很好解释的那样)是其形式化,最大似然是基于更可能导致实际观察结果的有利参数的估计方法。

但这只是一个玩具示例,只有一个二进制变量……让我们稍微扩展一下:我扔了两个相同的骰子,它们的值之和为 7。我的骰子有几面?嗯,我们都知道两个D6和为7的概率是相当高的。但也可能是D4,D20,D100,...但是,,P(7 | 2D6) > P(7 | 2D20)P(7 | 2D6) > P(7 | 2D100)...,所以你估计我的骰子是6面的。这并不意味着它是真的,但它是一个合理的估计,在没有任何额外信息的情况下。

这更好,但我们还没有进入机器学习领域......让我们开始吧:如果你想在一些经验数据上拟合你的 umptillion-layer 神经网络,你可以考虑所有可能的参数化,以及它们中的每一个的可能性有多大是返回经验数据。那是在探索一个多维空间,每个维度都有无限多的可能性,但你可以将这些点中的每一个都映射到一个可能性。然后使用这些参数来拟合您的网络是合理的:鉴于确实出现了经验数据,因此可以合理地假设它们应该可能在您的模型下。

这并不意味着您的参数很可能!只是在这些参数下观察值很可能。统计估计通常不是单一解决方案的封闭问题(例如求解方程可能是,并且您的概率为 1),但我们需要根据某些度量找到最佳解决方案。似然度就是这样一个度量标准,并且被广泛使用是因为它具有一些有趣的特性:

  • 它具有直观的意义
  • 对于大量模型,计算、拟合和优化相当简单
  • 对于正态变量(往往随处可见),MLE 给出与其他方法相同的结果,例如最小二乘估计
  • 它在条件概率方面的表述使其易于在贝叶斯框架中使用/操作
于 2016-06-08T13:22:05.610 回答