我想知道使用 ICM 作为 EM 算法中 E 步骤的近似值的数学依据是什么。
正如我在 E 步骤中所理解的那样,这个想法是找到一个等于潜在变量的后验分布的分布,这保证了可能性增加或从一些更简单的分布族中找到最佳可能分布,这保证了下限似然函数的增加。
如何在数学上证明在这样的 E 步骤中使用 ICM 是合理的?任何参考/推导/注释都会非常有帮助。
我想知道使用 ICM 作为 EM 算法中 E 步骤的近似值的数学依据是什么。
正如我在 E 步骤中所理解的那样,这个想法是找到一个等于潜在变量的后验分布的分布,这保证了可能性增加或从一些更简单的分布族中找到最佳可能分布,这保证了下限似然函数的增加。
如何在数学上证明在这样的 E 步骤中使用 ICM 是合理的?任何参考/推导/注释都会非常有帮助。
让我们考虑一个简单的 CRF,它表示给定观察 (x) 的标记 (y) 的可能性。还假设可能性取决于参数 \theta。在推理中,您只知道 x 并试图推断 y。你要做的就是以 E 步找到标记 y (argmax P(y|x,\theta)) 和 M 步找到参数 \theta (argmax P(\theta|x,y)) 的方式应用 EM 算法. M step 可以通过使用任何优化算法来完成,因为 \theta 通常不是高维的(至少没有 y 的维度那么高)。E step 只是对没有隐藏变量的 MRF/CRF 进行推断,因为 \theta 在 M step 中独立优化。ICM 是一种用于执行推理的算法。如果你想要一个参考,你可以简单地阅读墨菲的书http://www.cs.ubc.ca/~murphyk/MLbook/,我认为第26章是相当相关的。