问题标签 [feature-scaling]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
75 浏览

linear-regression - 线性回归和特征缩放

以下是我无法找出我错在哪里的几个问题,因为我提交的带有这些答案的问题是错误的。我添加了图像的屏幕截图和我理解的每个选项的解释。问题纯粹是基于讨论和简短的。

我发布了这个问题,以深入了解这些主题及其工作原理。

请帮帮我。


A. 我们需要预测作者的性别,可以是男性也可以是女性。我认为是分类问题,所以是监督学习。

B. 我们已经给出了一组垃圾邮件,需要预测其中的子类型是否是垃圾邮件。我认为是分类问题,所以是监督学习。

C. 我们需要根据身高和年龄来预测数据。这是一个线性回归问题,因为我们创建图形高度与年龄将找出测试用例。它是监督学习。

D. 分组数据是一个聚类问题,所以它是无监督学习。

在此处输入图像描述


在下面的问题中,我检查了 C 和 D 选项,因为特征缩放在相同范围内创建了我们的数据集,这有助于在更少的迭代中预测最佳 theta,并且等高线图将更加清晰和对称。参考:https ://medium.com/greyatom/why-how-and-when-to-scale-your-features-4b30ab09db5e

在此处输入图像描述


0 投票
1 回答
1036 浏览

python - 跨不同数据集扩展的最佳方法

我在预处理数据时遇到了一个特殊的情况。

假设我有一个 dataset A。我将数据集拆分为A_trainA_test。我适合A_train使用任何给定的缩放器(sci-kit learn)并A_test使用它进行转换scaler。现在训练神经网络A_train并验证A_test效果很好。没有过拟合,性能很好。

假设我有B与 in 具有相同特征的数据集A,但特征值的范围不同。一个简单的例子可能是波士顿AB巴黎的住房数据集(这只是一个类比,说成本、犯罪率等特征范围差异很大)。为了测试上述训练模型在 上的性能,我们根据 的缩放属性进行B变换,然后进行验证。这通常会降低性能,因为该模型从未显示来自.BA_trainB

奇怪的是,如果我B直接拟合和变换而不是使用 的缩放属性A_train,性能会好很多。通常,如果我在A_test. 在这种情况下,它似乎有效,尽管它不正确。

由于我主要研究气候数据集,因此对每个数据集进行培训是不可行的。因此,我想知道使用相同特征扩展此类不同数据集以获得更好性能的最佳方法。

请有任何想法。

PS:我知道用更多数据训练我的模型可以提高性能,但我对正确的缩放方式更感兴趣。我尝试从数据集中删除异常值并应用QuantileTransformer它,它提高了性能但可能会更好。

0 投票
1 回答
110 浏览

machine-learning - 线性回归 - 实现特征缩放

我试图在将 GRE 分数与录取概率相关联的数据集上在 Octave 5.1.0 中实现线性回归。数据集是这样的,

337 0.92
324 0.76
316 0.72
322 0.8

.
.

我的主 Program.m 文件看起来像,

computeCost.m 看起来像,

和 gradientDescent.m 看起来像,

然后绘制的图表如下所示,

图表

您可以看到,即使我的成本函数似乎已最小化,也感觉不对。

有人可以告诉我这是否正确吗?如果没有,我做错了什么?

0 投票
2 回答
638 浏览

python - 特征缩放以相同的比例转换列中的不同值

缩放转换具有不同值的不同列,例如标准缩放器,但是在从中构建模型时,先前不同的值将转换为均值 = 0 和标准 = 1 的相同值,因此它应该会影响模型拟合和结果。

我采用了一个玩具熊猫数据框,第一列从 1 到 10 开始,第二列从 5 到 14 开始,并使用标准缩放器进行缩放。

如果要使用上述 2 个自变量构建回归模型,那么我相信拟合模型(线性回归)将使用 before_scaling 和 after_scaling 数据帧上的数据帧产生不同的拟合和结果。如果是,那么我们为什么要使用特征缩放,如果我们在单个列上一一使用特征缩放,那么它也会产生相同的结果

0 投票
1 回答
2165 浏览

deep-learning - 点云数据集的归一化(特征缩放)

我有点云数据集,其中单个数据由 N * 3 表示,其中 N 是点数。同样,我在数据集中有“M”个点云。这些点云的范围变化很​​大。有些具有非常大的值(例如,对于所有 N 个点,10^6),而有些具有非常小的值(例如,对于所有 N 个点,10^1)。我想标准化每个点云。我该怎么做?

Q1。我是否应该通过仅从该点云中选择最小值和最大值来沿 x、y、z 维度单独标准化(最小-最大值)每个点云(单个点云 N*3)。在这种情况下,对于所有“M”点云,我们有不同的 min-max。输出点云也是如此。请查看图片了解更多https://i.stack.imgur.com/tKauw.jpg

Q2。或者我是否应该仅通过从整个数据集中选择 min 和 max(从 x、y、z 列中的 M * N *3 中)来标准化(min-max)沿 x、y、z 维度的所有点云。在这种情况下,对于所有“m”点云,我们都有相同的 min-max。请查看图片了解更多 https://i.stack.imgur.com/0HAhn.jpg

0 投票
2 回答
70 浏览

r - 如何缩放文本格式的特征“年龄”?

我需要从以下格式的数据集中缩放“年龄”属性。如何在 R 中缩放基于文本的变量?

0 投票
2 回答
195 浏览

machine-learning - 标准化测试集但范围更高

我正在规范化和重新调整我的训练集:

这很好用。我以完全相同的方式转换测试集,使用训练集中的平均值、标准差、最小值、最大值。如果测试集中的平均值和最大值与训练集相同,则此方法可以正常工作。但是,如果测试集中未转换特征的范围不同,那么我将在重新缩放后得到超出 -1、1 的值。如何解决这个问题?

0 投票
0 回答
951 浏览

python - 我们应该对分类变量进行标准化/标准化/特征缩放吗?

变量 - 'Item_Fat_Content' 值 - 'Low Fat'、'Regular'、'High fat'、'No fat'

这些值在转换为标签时将采用 0、1、2、3 的值。在标准化时,它们将采用类似于 0.0,0.4,0.5,0.9 的数值。

在应用算法时,python 会将此“Item_Fat_Content”视为分类变量还是数值变量?

0 投票
0 回答
16 浏览

scaling - 为什么我们只在缩放问题的训练数据中使用 fit() 方法?

在特征缩放中,我们只是在训练数据上使用 fit() 方法。并且不在有效或测试数据中使用。

为什么我们在缩放测试或有效数据时不在测试或有效数据中使用均值和标准差?

0 投票
1 回答
121 浏览

python - 特征缩放

我从有人说的帖子中读到它:

对于特征缩放,您了解训练集的均值和标准差,然后:

  • 使用训练集均值和标准差对训练集进行标准化。
  • 使用训练集均值和标准差对任何测试集进行标准化。

但是现在我的问题是,在使用缩放的训练数据拟合模型之后,我应该将这个拟合模型应用于缩放的或未缩放的测试数据吗?谢谢!