3

我正处于十字路口,我一直在使用 Mahout 对一些文档进行分类,并且偶然发现了 OpenNLP 文档分类器。

他们似乎做了非常相似的事情,我不知道是否值得转换我目前用 mahout 编写的内容,并提供一个 OpenNLP 实现。

与 OpenNLP 相比,mahout 在文档分类方面是否有一些明显的优势?

我的情况是我有几十万篇新闻文章,我只想提取其中的一个子集。Mahout 做得相当好,我使用朴素贝叶斯进行术语计数,然后使用 TF-IDF 来确定文档属于哪个类别。该模型会在发现新文章时更新,因此该模型会随着时间的推移不断改进。

似乎 OpenNLP 文档分类器做了一些非常相似的事情(尽管我还没有测试过它的准确度)。- 有没有人有使用这两种方法的经验,谁能不同地说为什么一个会在另一个之上使用?

4

1 回答 1

1

我没有这两个方面的经验,但是在试图弄清楚其中一个是否会对个人项目产生影响时,我偶然发现了这个博客,并引用:

与 mahout 相比,使用 OpenNLP 进行数据分类是另一种具有更高准确性和性能的方法。

您可以在此处查看博客文章。

于 2014-02-08T21:19:16.870 回答