mahout - Mahout 分类器与 OpenNLP 文档分类器

Question

我正处于十字路口，我一直在使用 Mahout 对一些文档进行分类，并且偶然发现了 OpenNLP 文档分类器。

他们似乎做了非常相似的事情，我不知道是否值得转换我目前用 mahout 编写的内容，并提供一个 OpenNLP 实现。

与 OpenNLP 相比，mahout 在文档分类方面是否有一些明显的优势？

我的情况是我有几十万篇新闻文章，我只想提取其中的一个子集。Mahout 做得相当好，我使用朴素贝叶斯进行术语计数，然后使用 TF-IDF 来确定文档属于哪个类别。该模型会在发现新文章时更新，因此该模型会随着时间的推移不断改进。

似乎 OpenNLP 文档分类器做了一些非常相似的事情（尽管我还没有测试过它的准确度）。- 有没有人有使用这两种方法的经验，谁能不同地说为什么一个会在另一个之上使用？

score 1 · Accepted Answer

我没有这两个方面的经验，但是在试图弄清楚其中一个是否会对个人项目产生影响时，我偶然发现了这个博客，并引用：

与 mahout 相比，使用 OpenNLP 进行数据分类是另一种具有更高准确性和性能的方法。

您可以在此处查看博客文章。

1 回答 1