0

我正在尝试使用 vowpal wabbit lda 模型。但我的结果很糟糕。我认为我正在做的过程有问题。我的词汇量为 100000。

我像这样运行代码

大众 --data train.txt --lda 50 --lda_alpha 0.1 --lda_rho 0.1 --lda_D 262726 -b 20 -pions.dat --readable_model wordtopics.dat

现在我期待 wordtopics.dat 文件包含这 100000 个单词的主题比例,但看起来这个单词 topics.dat 文件非常大,包含 1048587 行。

我认为是因为 b = 20,最后的线条就像具有均匀的概率分布。

但是,当我查看获得的主题时,它们根本没有意义。所以我觉得有些不对劲。伙计们会出什么问题?

4

1 回答 1

0

没有回答你的问题,但是哥伦比亚大学应用数据科学的人已经成为了与大众 LDA 合作的助手,尤其是在查看结果方面。

也尝试使用--passes选项,这样大众的结果可以比一些训练更好。

于 2014-08-21T05:11:33.783 回答