我正在寻找一些适用于大型数据集的主题建模工具。
我当前的训练数据集是 30 GB。我尝试了MALLET 主题建模,但总是出现 OutOfMemoryError。
如果您有任何提示,请告诉我。
您可以使用许多选项,并且此响应与它们的比较方式无关。
我认为对于这么大的数据集,重要的是所使用的近似后验推理方法,而不一定是软件实现。根据这篇论文,在线变分贝叶斯推理在时间和空间方面比 Gibbs 采样更有效。虽然我从未使用过它,但gensim包看起来不错。它是用 python 编写的,项目网页上有深入的教程。
有关直接来自源代码的代码,请参阅此处的LDA模型作者之一 David Blei 的网页。他链接到多种语言(R、Java、C++)的多个实现。
我建议使用支持主题建模的“大数据”工具,例如graphlab:http ://docs.graphlab.org/topic_modeling.html
GraphLab 创建主题模型工具包(带有 Python API 绑定)应该能够处理这么大的数据集。