我是现在正在学习LDA(潜在狄利克雷分配)模型的大一新生。但是,我遇到了一个问题。
theta是如何从alpha中得出的?
theta ~ Dir (alpha)
根据我的简短理解,变量 theta 是一个长度为 K 的向量,它的分量代表文档中的主题比例。并且,每个文档的 theta 彼此不同。而且,在语料库级别,alpha 仍然是一个 K 向量,而 theta 是一个 M(# of docs) x K(# of topic) 大小的矩阵。
第一个问题:我上面说的是真的吗?
第二个问题:如果是真的,在文档上,如何从同一个 Dirichlet 分布中得出不同的 thetas(K 向量)?