0

我正在处理一个相当大的数据集(770K 记录,2K 个属性,几乎所有这些属性都是二项式但都是整数形式),

我想通过 10 倍交叉验证对数据应用决策树,但我有一些问题:

1.为什么决策树(例如深度为10)需要这么多时间来训练?实际上我在训练树之前将数据(因为它不平衡)平衡到原始大小的 40%(~320K 记录),但这仍然需要很多时间,是否有任何其他版本的决策树可以产生相同的性能和需要更少的时间?(以二项式形式制作属性是否会使其更快?)

2.如何优化决策树的参数?我应该在整个 X-validation 上优化它吗?

4

1 回答 1

1

您是否有理由将二进制属性标记为整数?对于二项式属性,归纳确实更快,否则树归纳算法需要为每个节点的每个属性找到最佳拆分。

诱导这样一棵树需要多长时间?您使用的是哪种算法?

关于参数优化:需要在每个 X 验证循环内的单独集合上完成。请参阅此工作流程作为如何执行此操作的示例:http ://www.myexperiment.org/workflows/3263.html

于 2013-01-01T15:28:05.343 回答