2

我已经成功运行了 mahout lda,并使用命令 mahout ldatopics 显示了输出。

例如,我的主题是科学和体育。那么输出将是:主题 0 篮球,比赛,棒球主题 1 研究,研究,哲学

我现在的问题是如何识别单个文章的组或集群。是否有 ID 号或某种跟踪,以便对于我添加的每篇新文章,它将被分组或添加到特定的集群/主题。

如果我已经有了集群,下一步是什么?

谢谢

4

1 回答 1

0

我一直在查看源代码,但找不到任何关于计算给定文档主题概率的 theta 矩阵的内容,因为没有输入 Alpha 值来估计每个文档的主题,并且LDAState该类有一个logProbWordGivenTopic(int, int)方法,但没有什么像getProbTopicGivenDocument()我只能假设 LDA 的 mahout 实现不处理发现特定文档的主题分布。不过,如果其他人知道得更好,我很乐意犯错。

于 2011-03-03T17:15:09.530 回答