parameters - 在 LDA 模型中，多项式参数 (theta) 是如何从 Dirichlet 先验权重 (alpha) 得出的？

Question

我是现在正在学习LDA（潜在狄利克雷分配）模型的大一新生。但是，我遇到了一个问题。

theta是如何从alpha中得出的？

theta ~ Dir (alpha)

根据我的简短理解，变量 theta 是一个长度为 K 的向量，它的分量代表文档中的主题比例。并且，每个文档的 theta 彼此不同。而且，在语料库级别，alpha 仍然是一个 K 向量，而 theta 是一个 M(# of docs) x K(# of topic) 大小的矩阵。

第一个问题：我上面说的是真的吗？

第二个问题：如果是真的，在文档上，如何从同一个 Dirichlet 分布中得出不同的 thetas（K 向量）？

score 2 · Accepted Answer

第一个答案：是的，你完全正确。

第二个答案：正如你提到的，alpha 是一个 K 向量。当我们从狄利克雷分布中抽取样本时，我们会得到另一个K 向量。这些值本身将取决于 alpha 的值，但它们的总和都为 1（这就是它们可以被视为一个文档中所有主题的比例的方式）。我们对每个文档进行一次采样，以获得 M 个向量——这就是我们获得 MxK 矩阵 theta 的方式。

我们从 Dirichlet 分布中采样得到的向量的长度取决于其参数 alpha 的长度。

parameters - 在 LDA 模型中，多项式参数 (theta) 是如何从 Dirichlet 先验权重 (alpha) 得出的？

1 回答 1

Related

Reference