1

我最近深入研究了 LDA,这似乎很合理,但我留下了一些我无法找到答案的问题。

对于 Lda,我们首先将 korpus 表示为向量,其中

           word1 , word2 , word3 , wordN
document1   n       n        n       n
document2   n       n        n       n
documentN   n       n        n       n

这告诉我们,词汇表中的单词 j 在文档 i 中出现了多少次。

第一个问题)

我们是从所有文档的单词中随机创建词汇 V 还是我们选择它使得 V 中的每个单词在每个文档中至少出现一次?

接下来我们为每个文档创建矩阵

        topic1  topic2 topicN
 word1   n         n     n
 word2   n         n     n
 word3   n         n     n
 word4   n         n     n

我们选择我们想要在文档中表示的主题,并将单词随机分配给文档(如果单词属于主题,则 wordi x topij = 1,否则为 0)

接下来对于每个单词,我们使用公式计算他们的新主题

P = P1 * P2

在哪里

P1 = Probability( topic T | document d )
P2 = Probability( word W | topic T )

现在新主题 K 以概率 P 分配给单词 W。

第二个问题)

我们选择什么主题作为 T,我们将单词 W 的概率 P 分配给什么主题?我没能找到答案。

感谢您的回答

4

0 回答 0