我已经使用槌制作了一个平行主题模型。
我想获得每个文档的热门词。
为此,我试图获得一个词主题概率矩阵。
我将如何实现这一目标?
当您使用 MALLET 构建主题时,您有一个名为--word-topic-counts-file
. 当您提供此选项并指定文件时,MALLET 会在文件中的每一行写入(主题、单词、概率)值。您可以稍后用 C、Java 或 R(当然,任何语言)读取此文件来创建您想要的矩阵。
只是为了说明Praveen的答案。
使用--word-topic-counts-file
, MALLET 将创建一个文件,其前几行如下所示:
0 伊丽莎白 19:1
1 李约瑟 19:2 17:1
2 去世 19:2
3 母亲 17:1 19:1 14:1
其中第一行表示elizabeth一词在主题 19 中出现过一次;第二行表示needham这个词与主题19关联了两次,与主题17关联了一次;等等......
虽然,这个文件没有给你明确的概率,你可以用它来计算它们。