hadoop - 使用朴素贝叶斯 MlLib 达到分类的准确性

问问题 2014-09-09T12:42:24.390

433 次

我一直在使用 Mahout 的 0.9 Naive Bayes 算法对文档数据进行分类。对于特定的火车（2/3 的数据）和测试（1/3 的数据）集，我的准确率在 86% 范围内。当我转向 Spark 的 MLlib 时，准确率下降到 82%。在这两种情况下都使用标准分析器。

MlLib 链接：https ://spark.apache.org/docs/latest/mllib-naive-bayes.html Mahout 链接：http ://mahout.apache.org/users/classification/bayesian.html

请在这方面帮助我，因为我必须很快在生产系统中使用 Spark，这对我来说是一个障碍。

与 Mahout 相比，我还发现 MlLib 在数据分类方面需要更多时间。

任何人都可以帮助我提高使用 MlLib 朴素贝叶斯的准确性。

0 回答 0