-1

我目前正在上 Udemy 课程,SVR 课程的讲师说必须对 X 和 y 分别应用特征缩放,因为它们的标准差和均值不同。以下是代码和数据集的截图。X 是级别,y 是薪水。 特征缩放代码

SVR 类的数据集

对于数据预处理课,讲师使用了不同的数据集,数据集包含超过 1 个自变量。但是,如代码所示,他并没有独立地对它们进行缩放。我对这部分感到困惑,因为所有自变量都有不同的标准差和均值。那么为什么我们不单独对它们进行特征缩放呢?以下是代码和数据集 代码

预处理类数据集

顺便说一句,此代码由 Kirill Eremenko 编写

4

1 回答 1

0

特征缩放基本上有助于规范化特定范围内的数据。通常,几种常见的类类型包含特征缩放功能,以便它们自动进行特征缩放。但是,SVR 类不是常用的类类型,因此我们应该执行特征缩放。

缩放输入有助于避免这种情况,当一个或几个特征在量级上占主导地位时,模型很难吸收较小规模变量的贡献,即使它们很强大。

StandardScaler背后的想法是,它将转换您的数据,使其分布的平均值为 0,标准差为 1。在多变量数据的情况下,这是按特征完成的(换句话说,对于数据)。给定数据的分布,数据集中的每个值都会减去平均值,然后除以整个数据集(或多变量情况下的特征)的标准差。

如果我们不单独进行缩放,则因变量的分布/大小可能会受到影响。通常的做法是分别对依赖和独立特征进行归一化。

于 2021-05-13T09:22:14.157 回答