我正处于十字路口,我一直在使用 Mahout 对一些文档进行分类,并且偶然发现了 OpenNLP 文档分类器。
他们似乎做了非常相似的事情,我不知道是否值得转换我目前用 mahout 编写的内容,并提供一个 OpenNLP 实现。
与 OpenNLP 相比,mahout 在文档分类方面是否有一些明显的优势?
我的情况是我有几十万篇新闻文章,我只想提取其中的一个子集。Mahout 做得相当好,我使用朴素贝叶斯进行术语计数,然后使用 TF-IDF 来确定文档属于哪个类别。该模型会在发现新文章时更新,因此该模型会随着时间的推移不断改进。
似乎 OpenNLP 文档分类器做了一些非常相似的事情(尽管我还没有测试过它的准确度)。- 有没有人有使用这两种方法的经验,谁能不同地说为什么一个会在另一个之上使用?