machine-learning - 迭代条件模式 E step EM

Question

我想知道使用 ICM 作为 EM 算法中 E 步骤的近似值的数学依据是什么。

正如我在 E 步骤中所理解的那样，这个想法是找到一个等于潜在变量的后验分布的分布，这保证了可能性增加或从一些更简单的分布族中找到最佳可能分布，这保证了下限似然函数的增加。

如何在数学上证明在这样的 E 步骤中使用 ICM 是合理的？任何参考/推导/注释都会非常有帮助。

score 1 · Accepted Answer

让我们考虑一个简单的 CRF，它表示给定观察 (x) 的标记 (y) 的可能性。还假设可能性取决于参数 \theta。在推理中，您只知道 x 并试图推断 y。你要做的就是以 E 步找到标记 y (argmax P(y|x,\theta)) 和 M 步找到参数 \theta (argmax P(\theta|x,y)) 的方式应用 EM 算法. M step 可以通过使用任何优化算法来完成，因为 \theta 通常不是高维的（至少没有 y 的维度那么高）。E step 只是对没有隐藏变量的 MRF/CRF 进行推断，因为 \theta 在 M step 中独立优化。ICM 是一种用于执行推理的算法。如果你想要一个参考，你可以简单地阅读墨菲的书http://www.cs.ubc.ca/~murphyk/MLbook/，我认为第26章是相当相关的。

machine-learning - 迭代条件模式 E step EM

1 回答 1

Related

Reference