topic-modeling - 使用主题建模 Java 工具包

Question

我正在研究文本分类，我想使用主题模型（LDA）。我的语料库包含至少 24,000 个波斯新闻文件。语料库中的每个文档都是从新闻中提取的（关键字，权重）对的格式。

我看到了两个 Java 工具包：mallet 和 lingpipe。我已阅读有关导入数据的槌教程，它以纯文本形式获取数据，而不是我拥有的格式。有什么办法可以改变它吗？

还阅读了一些关于 lingpipe 的信息，教程中的示例是使用整数数组。大数据方便吗？

我需要知道哪种 LDA 实现更适合我？还有其他适合我的数据的实现吗？（在 Java 中）

score 0 · Accepted Answer

从关键字权重文件中，您可以创建一个人工文本，其中包含具有给定权重的随机顺序的单词。在生成的文本上运行 mallet 以检索主题。

1 回答 1