amazon-ec2 - Mahout LDA：实际可以使用的最大字典大小是多少？

Question

我在 EC2 上运行 Mahout 的 LDA（使用 Whirr）。您在实践中能够使用的最大词汇量是多少？你能分享一些 Hadoop/EC2 设置吗？

理想情况下，我想在 3M 文档（1B 令牌）的语料库上运行 LDA，并使用 20M 令牌的字典。

我尝试了 LDA 的其他 map-reduce 实现（hadoop-lda，LDA 先生），但并没有设法将其扩展得很远（请证明我错了！）

score 0 · Accepted Answer

此类问题的最佳位置是 Mahout 邮件列表 [1]。我自己没有尝试过 LDA 实现，但它是由 twitter 提供的，所以我猜它应该适合你的规模需求。

我相信邮件列表上的人可以给你一个更好的答案。

1 回答 1