0

我有来自 17 个类的 73,841 个数据实例,我用它们来训练带有 WEKA 的分类器。数据已使用 FFT 进行过滤,每个实例都有三个点。

I.e. 85724.5409, 40953.2485, 3204935, 4539024.002345, ?/class

我尝试了三个分类器:SMO/J48/朴素贝叶斯。

SMO/朴素贝叶斯的准确率达到 16%

但是 J48 分类器的准确率达到了 98/99%。

问题:

  1. 我可以安全地假设 J48 分类器犯了某种错误吗?为什么两个结果如此相似,而另一个却完全不同?

  2. 我可以做些什么来提高准确性?是不是有太多的类,这些类根本就不能分离?

谢谢

4

1 回答 1

1

我强烈认为决策树的输出不准确。

您能否提供生成的树或前 10 个节点以查看确切的问题。

以下是我建议的一些提高准确性的措施。

  • 班级规模:17班确实很大。尝试通过合并相似的类来减少。(仅在不影响项目范围的情况下进行。)
  • 非线性分类器:由于您有 17 个类,因此像朴素贝叶斯/决策树这样的线性分类器是不够的。您是否尝试过任何非线性 SVM 或像随机森林这样的集成学习。如果 17 个类别中的每一个都有足够的数据集,那么 HMM 将是更好分类的好选择。

谢谢,阿拉维

于 2015-09-10T09:47:18.347 回答