1

我正在使用 Weka 对一些大型数据集执行分类、聚类和一些回归。我目前正在尝试所有分类器(决策树、SVM、朴素贝叶斯等)。

有没有办法(在 Weka 或其他机器学习工具包中)扫描所有可用的分类器算法以找到产生最佳交叉验证准确度或其他指标的算法?

我也想为我的其他聚类问题找到最好的聚类算法;也许找到最低的平方和误差?

4

1 回答 1

3

这不也是某种过拟合吗?尝试大量分类器,然后选择最好的?

还要注意,预处理通常很重要,不同的分类器可能需要不同的预处理;每个分类器依次有十几个参数......

聚类也是一样,不要根据一些度量来选择聚类算法。因为如果您选择例如“最小平方和”,k-means获胜。不是因为它更好。但是因为它更适合您的评估方法:k-means 优化平方和。结果可能在其他指标上很糟糕,但在 SSQ 上,它们是设计为局部最优的。

数据挖掘不是你可以自动化到按钮级别的东西。

这是一项技能,需要在如何预处理、选择算法、调整参数评估实际结果方面的经验。否则,您将在市场上有一些软件,您只需提供数据并获得最佳分类器。

于 2013-10-11T21:57:45.017 回答