我正在处理一个相当大的数据集(770K 记录,2K 个属性,几乎所有这些属性都是二项式但都是整数形式),
我想通过 10 倍交叉验证对数据应用决策树,但我有一些问题:
1.为什么决策树(例如深度为10)需要这么多时间来训练?实际上我在训练树之前将数据(因为它不平衡)平衡到原始大小的 40%(~320K 记录),但这仍然需要很多时间,是否有任何其他版本的决策树可以产生相同的性能和需要更少的时间?(以二项式形式制作属性是否会使其更快?)
2.如何优化决策树的参数?我应该在整个 X-validation 上优化它吗?