-2

谁能用简单的话解释一下机器学习数据处理中的多重共线性术语。由于该术语在数据处理方面非常重要并且具有令人困惑的解释。

所以,请用简单的话解释一下,因为我是使用 python 的 ML 新手。

4

2 回答 2

1

在机器学习中,模型的输出(响应或预测)变量将通过某种程度的线性(正或负)取决于输入(预测或解释)变量。

但是在一些具有多个输入变量的数据集或模型中(例如 X1、X2、X3、X4 和 X5),我们会看到输入变量本身之间存在线性关系。也就是说,X1 与 X2 相关,X1 也与 X3 相关。因此,在这种情况下,X1、X2 和 X3 相互关联,我们看到该模型中存在多重共线性。请注意,多重共线性解释了一个输入变量与另一个输入变量(而不是输出变量)之间的相关性

让我们以房价预测模型来清楚地理解。考虑我们数据集中的以下输入变量平方英尺大小、卧室数量、UDS(以平方英尺为单位的未分割份额)和输出(预测)变量房价

它表明所有 3 个输入变量都相互关联。如何?

如果卧室数量没有增加,那么房子的大小也会增加。如果房子的大小增加,UDS 增加,存在多重共线性,我们应该在模型训练之前解决多重共线性问题

于 2020-10-11T09:54:34.543 回答
1

多重共线性意味着两个或多个预测变量彼​​此之间具有很强的线性关系。这在训练模型中可能会出现问题,因为您基本上是在同一变量的两个版本上进行训练,如果处理不当,可能会扭曲结果和超参数。使用基于回归的模型尤其成问题。

一个例子可以是视频游戏的评论数量和下载数量。我们可能会尝试预测价格,回归评论和下载的数量会有些多余,因为一般来说,玩游戏的人越多,评论就越多。

于 2020-04-29T17:08:59.853 回答