0

假设我有 2 个变量:(A作为输入)和C(作为输出)
所以它A -> C
还有另一个变量B,并且现有模型
corr(A, B) > corr(A, C)
corr(C, B) > corr(A, C)

A -> B -> C获得更好的性能吗?
换句话说,这B有什么信息增益吗?

4

1 回答 1

0

给定 A,获得的关于 C 的信息是:log(1/P(A,C))。给定 A 和 B,获得的关于 C 的信息是:log(1/P(A,B,C))。因此,只要P(A,C) > P(A,B,C)包含 B,就会获得更多的信息。

现在,是否是这种情况取决于您使用的corr指标。但是如果 A/C 依赖于 B,那么至少有一些 B 值会带来信息增益。一般来说,我总是在模型中包含因变量,除非依赖性太强,在这种情况下,某些模型可能无法正常工作(例如神经网络)。

于 2021-07-27T06:51:34.513 回答