3

我一直在使用 Mahout 的 0.9 Naive Bayes 算法对文档数据进行分类。对于特定的火车(2/3 的数据)和测试(1/3 的数据)集,我的准确率在 86% 范围内。当我转向 Spark 的 MLlib 时,准确率下降到 82%。在这两种情况下都使用标准分析器。

MlLib 链接:https ://spark.apache.org/docs/latest/mllib-naive-bayes.html Mahout 链接:http ://mahout.apache.org/users/classification/bayesian.html

请在这方面帮助我,因为我必须很快在生产系统中使用 Spark,这对我来说是一个障碍。

与 Mahout 相比,我还发现 MlLib 在数据分类方面需要更多时间。

任何人都可以帮助我提高使用 MlLib 朴素贝叶斯的准确性。

4

0 回答 0