4

我正在使用随机森林对大量天文物体进行分类,并且做得相对不错。但是,我想通过合并有关每个功能的方差(或误差条)的信息来进一步提高性能。

在天文学中,每次测量通常都有一个相关的误差线。例如,如果我测量红色和蓝色,每个颜色测量值都是亮度的测量值(在天文学中,即恒星的大小),误差,例如 R 等 14 +- 0.2,B 等12 + - 0.15。

我想弄清楚如何让随机森林使用错误栏作为额外的信息。有任何想法吗?

4

2 回答 2

0

误差和颜色测量都是数值特征吗?然后我会简单地添加一个新功能,它是这两个功能的产物,我想这就是你所说的 R 中的交互

于 2013-04-04T08:32:16.150 回答
0

您可以考虑做的一件简单的事情是使用每个变量的误差分布对数据进行重新采样。因此,您可以通过 x + u*sigma 生成新示例,其中 u 是正常 (0,1) 绘制,而 sigma 是该变量的错误的标准差。可能需要大量额外的样本才能正确合并噪声(取决于特征的数量),但由于 RF 并行训练非常快,因此它可能是一种简单的方法。还有一个额外的优点是可以很容易地在采样中加入相关噪声。

于 2013-11-19T07:54:05.367 回答