问题标签 [feature-scaling]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
415 浏览

python - Python中的数据规范化和重新缩放值

我有一个数据集,其中包含带有发布日期 (YYYY-MM-DD)、访问的 URL。我想计算一整年的访问基准(平均值)。页面在不同日期发布......例如,与 3 月发布的第 2 页(11,000)相比,8 月发布的第 1 页(10,000 次访问)的权重/贡献将更多。

这是我的数据集:

点击这里查看我的数据集

第一步:

所以首先我想在我的数据集中添加一个列(即时间范围),它可以计算从发布日期开始的时间范围。例如:如果页面发布于 2019-12-10,它可以给出从我今天的日期开始的时间范围/持续时间,预计 o/p:(2019 年 12 月,9 个月)。即(页面发布的月份年份,从今天开始的总月数

第二步:

我想根据步骤 1 中计算的时间范围列来规范化/重新调整我的数据(访问) 。

如何计算平均值/基准。

0 投票
1 回答
977 浏览

vector - 如何在列子集上实现 PySpark StandardScaler?

我想在我的数据框中的 10 列中的 6 列上使用 pyspark StandardScaler。这将是管道的一部分。

inputCol 参数似乎需要一个向量,我可以在对所有特征使用 VectorAssembler 后将其传入,但这会缩放所有 10 个特征。我不想缩放其他 4 个特征,因为它们是二进制的,我想要它们的非标准化系数。

我是否应该在 6 个特征上使用矢量汇编器,缩放它们,然后在这个缩放的特征向量和剩余的 4 个特征上再次使用矢量汇编器?我最终会在向量中得到一个向量,但我不确定这是否可行。

这样做的正确方法是什么?一个例子值得赞赏。

0 投票
1 回答
42 浏览

neural-network - 在神经网络中应用特征缩放

我有两个问题:

  1. 我是否必须对神经网络(以及深度学习)中的所有特征应用特征缩放?
  2. 如何缩放神经网络数据集中的分类特征(如果需要)?
0 投票
1 回答
80 浏览

python - 线性回归缩放特征

我想做一个线性回归。

我的特点是这样的:

在进行线性回归时,我确实必须对特征进行缩放,尤其是当它们具有像 Marketcap 和其他特征这样不同的比例时,对吗?

EPS 增长的负值是怎么回事?在此示例中执行特征缩放的最佳方法是什么?

0 投票
1 回答
96 浏览

python - 将数据框中的每一行除以 Python 中的向量

我在逻辑回归之前对我的数据进行特征缩放。

在我尝试将列除以 max_min 向量之前,一切都很完美。它似乎在每一列中都有效,但在年龄列中无效,但我似乎找不到原因。

我之前已经拆分数据进行测试和训练,下面我尝试缩放 X_train 数据。

从上面的代码中,我获得了一个表,其中每个值都减去了其列的最小值,这是正确的。输出: 输出

输出:

这是我面临问题的地方:

我已经获得了一个表格,其中每个值都除以向量,除了第一列“年龄”,其中数字不对应于除法。输出: 输出

0 投票
1 回答
166 浏览

machine-learning - 由于维度不同,无法对特征值进行逆转换

我正在设计一个多元时间序列模型。为此,我将 5 个特征输入到 lstm 模型并尝试预测 1 个变量的输出(即其值取决于自身和其他 4 个特征)。

为此,我正在按如下方式进行特征缩放:-

输出:-

这是我得到的输出

在模型的输出中,我得到的预测值为:

在此处输入图像描述

但是,当它尝试将其逆变换为:

predicted_stock_price = sc.inverse_transform(predicted_stock_price)

我收到以下错误:-

形状 (65,1) 的不可广播输出操作数与广播形状 (65,5) 不匹配

请帮忙。先感谢您 :)

0 投票
0 回答
23 浏览

python - 分别对训练集和测试集进行特征缩放还是使用相同的缩放器?

我对 sklearn.preprocessing.StandardScaler(以及 sklearn.preprocessing.scale)的使用有些困惑。许多突出的例子为训练集和测试集应用了单独的缩放器:

而其他人在两组上应用相同的缩放器:

实际上,在这种情况下,您不能先缩放整个集合,然后再拆分它吗?还是会让分类器提前看到测试数据?

对我来说,直观地说,第二个版本是有意义的,否则它将成为测试集的不同缩放器,并且会对后续步骤产生影响。

谁能确认哪种方法是正确的,并解释原因?

0 投票
1 回答
40 浏览

r - 反转特征缩放

在我的dataset我有一个二进制Target(0 或 1)变量和 8 个特征:ncharrtcTmeanweek_dayhourntags和. 是一个因素,而其他因素是数字。我建立了一个决策树分类器,但我的问题涉及特征缩放:nlinksnexweek_day

模型返回它Tmean=-0.057并且ntags=2是两个分裂点。我怎样才能恢复这两个特征的原始值,即由scale().

0 投票
1 回答
78 浏览

time-series - 时间序列预测的特征缩放

我正在进行时间序列分析,准确地说是一个多变量时间序列,在将输入输入到我的 LSTM 模型之前,我已经对它们进行了缩放。我用来评估我的模型的指标是验证集的损失和平均绝对误差。

我的损失和 MAE 都低于 1 时,我能够取得相当不错的结果。但是,我当时想到,由于我的数据已经被缩放,它在 1 到 -1 的范围内,因此,这些结果不是奇怪。

本质上,我的问题是,当数据被缩放时,你如何评估一个旨在执行时间序列预测甚至回归的模型?由于数据落入的范围,无论如何损失不会很低吗?

0 投票
0 回答
35 浏览

data-science - 我们是否需要缩小数据集中的日期特征?

为了使所有特征的所有值具有相似的比例,我们正确地执行特征缩放。我的问题是,如果我们有一个包含所有日期值的特征,我们需要使用这个日期特征来训练我们的模型。我们如何处理这个?我们是否需要缩放标准化或标准化日期功能?