我正在从(http://www-stat.stanford.edu/~jhf/ftp/trebst.pdf实施 MART)算法 5 实现 MART,我的算法“适用”于更少的数据(3000 个训练数据文件,22 个特征)和J=5,10,20(叶节点数)和 T = 10, 20。它给了我很好的结果(训练的 R-Precision 为 0.30 到 0.5)但是当我尝试在一些大型训练数据上运行时(70K记录)它给了我运行时下溢错误 - 我认为它应该是 - 只是不知道如何解决这个问题?
下溢错误出现在这里,计算成本梯度(或伪响应):
这里 y_i 是 {1,-1} 标签,所以如果我尝试: 2/exp(5000) 它的分母溢出!
只是想知道我是否可以“标准化”这个或“阈值”这个,但是我使用这个伪响应来计算“标签”(那个 pdf 中的伽玛),然后是那些伽玛来计算模型分数。