我一直在使用 MALLET 来执行我的主题建模(LDA)。
我试图在一个数据集中发现 20 个主题结果如下(关键字列表对于这个问题并不重要):
0 0.05013 list_of_topic_keywords_0
1 0.06444 list_of_topic_keywords_1
2 0.04946 list_of_topic_keywords_2
3 0.14458 list_of_topic_keywords_3
4 0.09248 list_of_topic_keywords_4
5 0.04865 list_of_topic_keywords_5
6 0.0977 list_of_topic_keywords_6
7 0.0653 list_of_topic_keywords_7
8 0.04557 list_of_topic_keywords_8
9 0.07494 list_of_topic_keywords_9
10 0.03577 list_of_topic_keywords_10
11 0.02867 list_of_topic_keywords_11
12 0.04184 list_of_topic_keywords_12
13 0.05251 list_of_topic_keywords_13
14 0.04231 list_of_topic_keywords_14
15 0.03207 list_of_topic_keywords_15
16 0.13064 list_of_topic_keywords_16
17 0.04922 list_of_topic_keywords_17
18 1.0515 list_of_topic_keywords_18
19 0.04922 list_of_topic_keywords_19
我读过每行中的第二个数字(例如第 0 行中的 0.05013)代表 dirichlet 参数。我认为这个数字代表了主题的重要性(整个文档中的存在),我认为总数应该等于 1。
然而,这种情况并非如此!仅查看主题 18,其值为 1.0515。
有人可以解释一下这个参数真正代表什么以及为什么它对于特定主题高于 1 吗?
提前致谢