问题标签 [feature-scaling]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 为什么在缩放数据框的列(非空)时,会返回许多 NaN 值?
我正在处理这个数据集(我已经清理了它,没有缺失值)。
应用随机森林回归器后效果不佳,因此我决定缩放特征 - (卧室面积转售纬度经度)和目标变量 - (价格)
但是在执行缩放之后:
我明白了:
许多值现在变成了 NaN。我怎样才能解决这个问题?
feature-scaling - 当我使用特征缩放训练模型时,如何从用户输入中找到最小最大标量特征缩放的单个值?
在训练模型(逻辑回归)时在“票价”和“年龄”两列上使用特征缩放(MinMaxScalar),当我接受用户输入来预测结果时,我必须对用户输入的票价和年龄值应用特征缩放但缩放值始终为 0 请帮助!PS - 我从模型中得到错误的预测,而没有缩放用户输入的年龄和票价值。
r - 是否有任何包可用于在 R 中缩放到单位长度?
我想将特征缩放技术应用于我的数据集以缩放特征。特别是我想使用缩放到单位长度技术来缩放我的特征。我对哪些软件包可用于扩展进行了一些研究。我确实从互联网资源中看到了这些,[在此处输入链接描述][1]
[1] 在 R 中缩放 - 从一个答案中,我了解到这种缩放使用Z 分数归一化技术。
是否已经有任何包可用于在 R 中实现对单位长度的缩放?我想知道是否有任何可用的包可以实现这个公式,
X` = X/(||X||)。
r - 在 R 中使用 K 折交叉验证进行特征缩放时的数据泄漏
我正在执行 K-Folds 交叉验证来评估我的 SVM 模型性能。但是,由于数据的性质,我想使用特征缩放来缩放我的数据。这是数据的片段;
这是其余的代码;
我知道特征缩放然后在原始训练集上运行 K-folds CV 会导致数据泄漏,因为内部训练集和验证集都被缩放在一起,从而导致过度拟合。
我想知道caret包中的preProcess函数是否以一种避免这种情况的方式缩放数据并分别缩放内部训练集和验证集?
machine-learning - 逻辑回归中是否需要对特征进行缩放?
我有一个具有一个特征(信用余额)的训练集 - 数字在 0-20,000 之间变化。响应为 0(默认 = 否)或 1(默认 = 是)。这是使用逻辑函数生成的模拟训练集。供参考,可在此处获得。
下面的箱线图分别显示了 default=yes 和 default=no 类的余额分布 -
以下是数据分布——
此外,数据集与每个响应类的 50% 数据完美平衡。所以它是一个适合应用逻辑回归的经典案例。但是,在应用逻辑回归时,得分为 0.5,因为仅预测 y=1。以下是应用逻辑回归的方式 -
这证明逻辑回归拟合这些数据的方式一定有问题。但是,当平衡功能被缩放时,分数提高到 87.5%。那么缩放是否在这里起作用?
编辑:为什么缩放在这里起作用?sklearn 中的Logistic Regression文档说lbfgs
求解器对未缩放的数据具有鲁棒性。
python - 为什么基于树和集成的算法不需要特征缩放?
最近,我对数据分析很感兴趣。
所以我研究了如何做机器学习项目并自己做。
我了解到缩放在处理特征时很重要。
所以我在使用决策树或 LightGBM 之类的树模型时缩放了每个特征。
然后,我缩放时的结果更差。
我在互联网上搜索,但我得到的只是 Tree 和 Ensemble 算法对数据的方差不敏感。
我还买了一本 O'Relly 的“Hands-on Machine-learning”一书,但我无法得到足够的解释。
我可以得到更详细的解释吗?
recurrent-neural-network - 使用 RNN 进行时间序列预测的数据标准化后的 MInMax 缩放
问题
我正在尝试预测为时间序列预测构建循环神经网络 (RNN)。RNN 中的一个常见问题是Exploding Gradients
大误差梯度可能导致非常大的网络更新。为了解决这个问题,我通常Sigmoid
在输出层添加一个激活函数,并将我的所有数据缩放到范围 [0, 1.0]。
在这种情况下,我想对输入使用标准化技术,因此也可能存在负值。当然,Sigmoid 函数会在最后一层去掉。然而,这给我留下了两个选择:
可能的解决方案
- 在输出层使用线性激活函数。
- 使用 MinMax Scaler 在 [-1.0, 1.0] 范围内缩放我的数据。然后使用 Tanh 激活函数。
问题
在将 StandardScaler 应用于数据输入之后,将 MinMaxScaler 应用于范围 [-1.0, 1.0] 是否有任何错误?您认为在 StandarScaler 之后应用 MinMaxScaler 是一种不好的做法吗?在输出端使用线性激活函数离开 RNN 会更好吗?
lstm - RNN 不会预测特定值
我目前正在研究纽约出租车数据集。我训练了网络并尝试预测测试数据集,但该模型并没有预测某些特定值。我检查了我的数据,发现验证集中的一些值在缩放数据集后高于训练集中的最大值。我评估了另一种缩放方法,但问题没有解决,精度下降太多。你有什么解决办法吗?感谢您提供的任何帮助。