0

我正在研究文本分类,我想使用主题模型(LDA)。我的语料库包含至少 24,000 个波斯新闻文件。语料库中的每个文档都是从新闻中提取的(关键字,权重)对的格式。

我看到了两个 Java 工具包:mallet 和 lingpipe。我已阅读有关导入数据的槌教程,它以纯文本形式获取数据,而不是我拥有的格式。有什么办法可以改变它吗?

还阅读了一些关于 lingpipe 的信息,教程中的示例是使用整数数组。大数据方便吗?

我需要知道哪种 LDA 实现更适合我?还有其他适合我的数据的实现吗?(在 Java 中)

4

1 回答 1

0

从关键字权重文件中,您可以创建一个人工文本,其中包含具有给定权重的随机顺序的单词。在生成的文本上运行 mallet 以检索主题。

于 2015-06-03T20:36:44.540 回答