algorithm - 两组潜在变量的 EM 算法

Question

在典型的聚类问题中，数据点 x 的概率为p(x) = sum_k p(k)p(x|k)，其中k是指定 x 所属聚类的潜在变量。我们可以使用 EM 算法来最大化训练数据集目标函数的对数似然：sum_n log (sum_k p(k)(p(x|k))).

我想知道EM算法是否可以用两组潜在变量来解决问题，即 p(x) = sum_k sum_l p(x|k, l)p(k)p(l)？如果是这样，我们该怎么做？

如果所有的概率分布都是 sigmoid 函数呢？

score 1 · Accepted Answer

这应该只是 EM 算法作为解决隐藏数据问题的一种方式的直接应用——隐藏数据是每一步 k 和 l 的基础值。在 E 步骤中，您计算出预期的对数似然，考虑对 (k,l) 的每个可能值，使用此概率，给定数据和当前参数设置作为权重。在 M 状态下，您可以找到最大化此预期对数似然的参数。这与将 (k,l) 对编码为单个索引 m 非常相似，只是 p(k)p(l) 中的结构比 p(m) 中的结构多，这将影响 M迈得很轻。

如果概率是 sigmoid - 任何其他概率分布 - EM 算法的理由仍然成立：每一步都会增加或保持对数似然不变。但是，如果优化问题变得更难，您可能会发现 M 步变得更加昂贵。

algorithm - 两组潜在变量的 EM 算法

1 回答 1

Related

Reference