1

Weka 的 J48 允许检查一组完整属性的信息增益,我应该使用这些重要属性来构建我的模型吗?或者我应该使用全套属性吗?

4

1 回答 1

1

在数据挖掘中,您使用的特征数量、准确性和生成模型所需的时间之间存在多方面的权衡。理论上,您会希望包含所有可能的功能以提高准确性;然而,以这种方式进行数据挖掘保证了冗长的模型生成时间。此外,当树有数千个节点时,生成文本决策树(如 J48)的模型就不那么有用了。

根据您开始使用的功能数量,您可能非常希望删除不能提供足够大的信息增益的功能。如果您一开始只有少量功能(例如少于 20 个),那么保留所有功能可能是有意义的。

如果您确实希望限制使用的功能数量,最好选择具有最高信息增益的功能。还值得研究诸如减少主成分(可以通过 WEKA 完成)之类的事情,以帮助选择最佳功能。

于 2015-06-10T20:47:17.167 回答