问题标签 [feature-scaling]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Python中的数据规范化和重新缩放值
我有一个数据集,其中包含带有发布日期 (YYYY-MM-DD)、访问的 URL。我想计算一整年的访问基准(平均值)。页面在不同日期发布......例如,与 3 月发布的第 2 页(11,000)相比,8 月发布的第 1 页(10,000 次访问)的权重/贡献将更多。
这是我的数据集:
第一步:
所以首先我想在我的数据集中添加一个列(即时间范围),它可以计算从发布日期开始的时间范围。例如:如果页面发布于 2019-12-10,它可以给出从我今天的日期开始的时间范围/持续时间,预计 o/p:(2019 年 12 月,9 个月)。即(页面发布的月份年份,从今天开始的总月数)
第二步:
我想根据步骤 1 中计算的时间范围列来规范化/重新调整我的数据(访问) 。
如何计算平均值/基准。
vector - 如何在列子集上实现 PySpark StandardScaler?
我想在我的数据框中的 10 列中的 6 列上使用 pyspark StandardScaler。这将是管道的一部分。
inputCol 参数似乎需要一个向量,我可以在对所有特征使用 VectorAssembler 后将其传入,但这会缩放所有 10 个特征。我不想缩放其他 4 个特征,因为它们是二进制的,我想要它们的非标准化系数。
我是否应该在 6 个特征上使用矢量汇编器,缩放它们,然后在这个缩放的特征向量和剩余的 4 个特征上再次使用矢量汇编器?我最终会在向量中得到一个向量,但我不确定这是否可行。
这样做的正确方法是什么?一个例子值得赞赏。
neural-network - 在神经网络中应用特征缩放
我有两个问题:
- 我是否必须对神经网络(以及深度学习)中的所有特征应用特征缩放?
- 如何缩放神经网络数据集中的分类特征(如果需要)?
python - 线性回归缩放特征
我想做一个线性回归。
我的特点是这样的:
在进行线性回归时,我确实必须对特征进行缩放,尤其是当它们具有像 Marketcap 和其他特征这样不同的比例时,对吗?
EPS 增长的负值是怎么回事?在此示例中执行特征缩放的最佳方法是什么?
python - 分别对训练集和测试集进行特征缩放还是使用相同的缩放器?
我对 sklearn.preprocessing.StandardScaler(以及 sklearn.preprocessing.scale)的使用有些困惑。许多突出的例子为训练集和测试集应用了单独的缩放器:
而其他人在两组上应用相同的缩放器:
实际上,在这种情况下,您不能先缩放整个集合,然后再拆分它吗?还是会让分类器提前看到测试数据?
对我来说,直观地说,第二个版本是有意义的,否则它将成为测试集的不同缩放器,并且会对后续步骤产生影响。
谁能确认哪种方法是正确的,并解释原因?
r - 反转特征缩放
在我的dataset
我有一个二进制Target
(0 或 1)变量和 8 个特征:nchar
、rtc
、Tmean
、week_day
、hour
、ntags
和. 是一个因素,而其他因素是数字。我建立了一个决策树分类器,但我的问题涉及特征缩放:nlinks
nex
week_day
模型返回它Tmean=-0.057
并且ntags=2
是两个分裂点。我怎样才能恢复这两个特征的原始值,即由scale()
.
time-series - 时间序列预测的特征缩放
我正在进行时间序列分析,准确地说是一个多变量时间序列,在将输入输入到我的 LSTM 模型之前,我已经对它们进行了缩放。我用来评估我的模型的指标是验证集的损失和平均绝对误差。
我的损失和 MAE 都低于 1 时,我能够取得相当不错的结果。但是,我当时想到,由于我的数据已经被缩放,它在 1 到 -1 的范围内,因此,这些结果不是奇怪。
本质上,我的问题是,当数据被缩放时,你如何评估一个旨在执行时间序列预测甚至回归的模型?由于数据落入的范围,无论如何损失不会很低吗?
data-science - 我们是否需要缩小数据集中的日期特征?
为了使所有特征的所有值具有相似的比例,我们正确地执行特征缩放。我的问题是,如果我们有一个包含所有日期值的特征,我们需要使用这个日期特征来训练我们的模型。我们如何处理这个?我们是否需要缩放(标准化或标准化)日期功能?