我最近深入研究了 LDA,这似乎很合理,但我留下了一些我无法找到答案的问题。
对于 Lda,我们首先将 korpus 表示为向量,其中
word1 , word2 , word3 , wordN
document1 n n n n
document2 n n n n
documentN n n n n
这告诉我们,词汇表中的单词 j 在文档 i 中出现了多少次。
第一个问题)
我们是从所有文档的单词中随机创建词汇 V 还是我们选择它使得 V 中的每个单词在每个文档中至少出现一次?
接下来我们为每个文档创建矩阵
topic1 topic2 topicN
word1 n n n
word2 n n n
word3 n n n
word4 n n n
我们选择我们想要在文档中表示的主题,并将单词随机分配给文档(如果单词属于主题,则 wordi x topij = 1,否则为 0)
接下来对于每个单词,我们使用公式计算他们的新主题
P = P1 * P2
在哪里
P1 = Probability( topic T | document d )
P2 = Probability( word W | topic T )
现在新主题 K 以概率 P 分配给单词 W。
第二个问题)
我们选择什么主题作为 T,我们将单词 W 的概率 P 分配给什么主题?我没能找到答案。
感谢您的回答