0

我一直在使用 MALLET 来执行我的主题建模(LDA)。

我试图在一个数据集中发现 20 个主题结果如下(关键字列表对于这个问题并不重要):

0   0.05013 list_of_topic_keywords_0
1   0.06444 list_of_topic_keywords_1
2   0.04946 list_of_topic_keywords_2
3   0.14458 list_of_topic_keywords_3
4   0.09248 list_of_topic_keywords_4
5   0.04865 list_of_topic_keywords_5
6   0.0977  list_of_topic_keywords_6
7   0.0653  list_of_topic_keywords_7
8   0.04557 list_of_topic_keywords_8
9   0.07494 list_of_topic_keywords_9
10  0.03577 list_of_topic_keywords_10
11  0.02867 list_of_topic_keywords_11
12  0.04184 list_of_topic_keywords_12
13  0.05251 list_of_topic_keywords_13
14  0.04231 list_of_topic_keywords_14
15  0.03207 list_of_topic_keywords_15
16  0.13064 list_of_topic_keywords_16
17  0.04922 list_of_topic_keywords_17
18  1.0515  list_of_topic_keywords_18
19  0.04922 list_of_topic_keywords_19

我读过每行中的第二个数字(例如第 0 行中的 0.05013)代表 dirichlet 参数。我认为这个数字代表了主题的重要性(整个文档中的存在),我认为总数应该等于 1。

然而,这种情况并非如此!仅查看主题 18,其值为 1.0515。

有人可以解释一下这个参数真正代表什么以及为什么它对于特定主题高于 1 吗?

提前致谢

4

1 回答 1

2

因为 Dirichlet 的参数被限制为正实数。它们不是比例。Dirichlet 的样本是比例(它支持单纯形)。

首先要检查的地方:https ://en.wikipedia.org/wiki/Dirichlet_distribution

大小确实反映了相对重要性。如果您通过 Dirichlet 参数的总和对特定参数进行归一化,您将得到比例的预期值,但不要误以为这就是比例。

于 2014-10-07T16:02:35.550 回答