machine-learning - what does Maximum Likelihood Estimation exactly mean?

Question

When we are training our model we usually use MLE to estimate our model. I know it means that the most probable data for such a learned model is our training set. But I'm wondering if its probability match 1 exactly or not?

score 5 · Accepted Answer

你几乎是对的。模型的可能性 ( theta) 对于观察到的数据 ( X) 是观察的概率X，给定theta：

L(theta|X) = P(X|theta)

对于最大似然估计 (MLE)，您选择theta提供的最大值的值P(X|theta)。这并不一定意味着的观测值X最有可能用于的 MLE 估计theta。这只是意味着没有其他值theta可以为的观察值提供更高的概率X。

换句话说，如果T1是的 MLE 估计theta，并且如果T2是的任何其他可能值theta，则P(X|T1) > P(X|T2)。但是，数据 ( ) 的另一个可能值仍可能Y与观察到的数据 ( ) 不同X，因此P(Y|T1) > P(X|T1)。

X的 MLE 估计的概率theta不一定是 1（除了微不足道的情况外，可能永远不会是）。这是预期的，因为X可以采用具有非零概率的多个值。

score 3 · Accepted Answer

以 bogatron 举例说明的内容为基础，从 MLE 中学习到的参数能够最好地解释您所看到的数据（仅此而已）。不，概率不是 1（微不足道的情况除外）。

作为 MLE 所做的一个示例（已被使用数十亿次）是：

如果您有一个简单的抛硬币问题，并且您观察到 5 个抛硬币的结果（H、H、H、T、H）并进行 MLE，您最终会给出 p(coin_toss == H) 的高概率（ 0.80）因为你看到 Heads 的次数太多了。显然，MLE 有好有坏……

优点：这是一个优化问题，因此通常可以很快解决（即使没有解析解）。缺点：当没有大量数据时它可能会过拟合（例如我们的抛硬币示例）。

score 2 · Accepted Answer

我在我的统计类中得到的例子如下：

嫌疑人在逃！对它们一无所知，除了它们大约有 1 米 80 高。警察应该找男人还是女人？

这里的想法是您的模型 () 有一个参数，以及给定该参数M/F的概率。有高男、高女、矮男和矮女。但是，在没有任何其他信息的情况下，男性 1 米 80 的概率大于女性 1 米 80 的概率。可能性（正如 bogatron 很好解释的那样）是其形式化，最大似然是基于更可能导致实际观察结果的有利参数的估计方法。

但这只是一个玩具示例，只有一个二进制变量……让我们稍微扩展一下：我扔了两个相同的骰子，它们的值之和为 7。我的骰子有几面？嗯，我们都知道两个D6和为7的概率是相当高的。但也可能是D4，D20，D100，...但是，，P(7 | 2D6) > P(7 | 2D20)和P(7 | 2D6) > P(7 | 2D100)...，所以你估计我的骰子是6面的。这并不意味着它是真的，但它是一个合理的估计，在没有任何额外信息的情况下。

这更好，但我们还没有进入机器学习领域......让我们开始吧：如果你想在一些经验数据上拟合你的 umptillion-layer 神经网络，你可以考虑所有可能的参数化，以及它们中的每一个的可能性有多大是返回经验数据。那是在探索一个多维空间，每个维度都有无限多的可能性，但你可以将这些点中的每一个都映射到一个可能性。然后使用这些参数来拟合您的网络是合理的：鉴于确实出现了经验数据，因此可以合理地假设它们应该可能在您的模型下。

这并不意味着您的参数很可能！只是在这些参数下，观察值很可能。统计估计通常不是单一解决方案的封闭问题（例如求解方程可能是，并且您的概率为 1），但我们需要根据某些度量找到最佳解决方案。似然度就是这样一个度量标准，并且被广泛使用是因为它具有一些有趣的特性：

它具有直观的意义
对于大量模型，计算、拟合和优化相当简单
对于正态变量（往往随处可见），MLE 给出与其他方法相同的结果，例如最小二乘估计
它在条件概率方面的表述使其易于在贝叶斯框架中使用/操作

machine-learning - what does Maximum Likelihood Estimation exactly mean?

3 回答 3

Related

Reference