问题标签 [feature-scaling]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 在python中绘制具有不同比例值的数据框
我有以下数据框
每个变量都有不同的比例值。我想在一张图上绘制变量,但由于变量的比例差异,我只能看到收入线。我用
我决定根据我在网上找到的内容来展示比例,所以我做了以下事情:
然后我尝试在特征缩放后绘制数据框,它给出了以下错误:
我不知道从这里去哪里。目的是将所有变量绘制在一张图上。
python - 在消除低方差之前对数据进行归一化,会产生错误
我正在使用iris
scikit - learn函数load_iris()
和.sklearn.datasets
normalize
VarianceThreshold
似乎如果我正在使用MinMaxScaler
然后运行VarianceThreshold
- 就没有任何功能了。
缩放前:
缩放后 ( MinMaxScaler
)
我VarianceThreshold
用作:
MinMaxScaler
如果我们想删除低方差的特征,我们是否应该缩放数据(例如,通过)?
machine-learning - 对不同的特征使用不同的特征缩放技术是否正确?
我读了这篇关于特征缩放的文章: all-about-feature-scaling
两种主要的特征缩放技术是:
min-max scaler
- 它对具有非高斯分布的特征响应良好。Standard scaler
- 对具有高斯分布的特征反应良好。
我阅读了其他帖子和示例,似乎我们总是对所有功能使用一种缩放方法(min-max
或standard
)。
我还没有看到建议的示例或论文:
为什么我们不混合缩放方法?
我的建议有什么问题或缺点?
python - 在 MinMaxScaler 中为多个特征使用相同的最小和最大数据
我有一个包含 5 个特征的数据集。其中两个特征非常相似,但没有相同的最小值和最大值。
feature 3
总是小于feature 2
,重要的是在缩放后保持这种状态。但是由于特征 2 和特征 3 没有完全相同的min
和max
值,因此在缩放之后,它们最终都会默认将 0 和 1 作为最小值和最大值。这将删除值之间的关系。事实上,缩放后,第一个样本变为:
这是我不想要的。我似乎找不到手动更改的最小值和最大值的方法MinMaxScaler
。还有其他丑陋的技巧,例如操纵数据并将特征 2 和特征 3 合二为一,以便之后再次进行缩放和拆分。但我想首先知道是否有由 处理的解决方案sklearn
,例如对多个功能使用相同的最小值和最大值。
否则,最简单的解决方法就可以了。
mysql - mysql特征缩放计算
我需要制定一个 mysql 查询来选择以这种方式标准化的值:
normalized = (value-min(values))/(max(values)-min(values))
我的尝试如下所示:
但显然是错误的,因为它只返回一个值。你能帮我找到正确的语法吗?
machine-learning - 如何根据神经网络中的图像分辨率计算特征数量(非线性假设)?
遇到 Andrew Ng 的神经网络非线性假设,我有一个 MCQ 来查找分辨率为 100x100 灰度强度的图像的特征数量。
答案是 5000 万,5 x 10^7。
然而,早先对于 50 x 50 像素的灰度图像,特征数是 50x50 (2500),而对于 RGB 图像,它是 7500。
为什么是 5 x 10^7 而不是 10,000?
然而,他确实说包括所有二次项 (xi,xj) 作为特征。
问题是:
假设您正在学习从 100×100 像素图像(灰度,而不是 RGB)中识别汽车。让特征是像素强度值。如果你训练逻辑回归,包括所有的二次项 (xi,xj) 作为特征,你会有多少特征?
之前他补充说,如果我们使用 xi, xj ,我们最终会得到总共 300 万个特征。我还是不知道这是什么关系?
python - 增量分析中的特征缩放
我正在对我的数据进行增量分析。数据属于 4 个年龄组(第 1 天、第 2 天、第 3 天和第 4 天)。在将数据输入模型之前,我使用 sklearn 中的标准缩放器实现对特征进行标准化。当我想到它时,我想到了三种方法。
请告知哪种方法最适合。
pandas - 使用 sklearn 中的 fit_transform 方法时出现 ValueError
我有一个包含所有数值数据的数据集(乳腺癌检测),并将数据集划分为 X(包含所有特征)和 y(输出类)。将数据分成训练集和测试集后,我面临着一个关于应用特征缩放的问题。在应用特征缩放时我得到一个值错误:无法将字符串转换为浮点数:'?'。虽然我已经替换了'?' 以前是-9999。
#现在将数据分为训练数据和测试数据。
#替换“?” 与-9999。
#在y上应用标签编码。
#在此之后我得到值错误。那么我怎样才能确保'?没有保留在数据中,还是有任何分类编码要做?
python - 如何根据伯努利分布重新调整数据
我已经阅读了各种关于标准化和规范化的文章,但没有一篇文章提供了一个具体的例子来说明如何使用他们的公式重新调整数据。
我想按如下方式转换数据;给定data = [x1...xn] rescale(data,n)是否应该将其重新缩放到 n 同时保留分布例如
如果可能的话,我也希望反过来是真的,例如
我最初的尝试只是公式,(数组中变量的总和/数组的总长度)* 范围号。所需范围的值 = 范围无位置的值。但不幸的是,它没有保留分布。
目的是,我想应用各种不同形状的内核和矩阵,但我不想使用填充。
请帮忙
python - 是否有一个函数来规范化字符串并将它们转换为整数/浮点数?
我有多个特征列表,这些特征是我想要分析的字符串。也就是说,例如:
我知道如何将像“0.5”这样的字符串转换为浮点数,但是有没有办法将这些列表“标准化”为整数或浮点值(在我的情况下每个列表都是独立的)?我想得到这样的东西:
有谁知道如何实现这一目标?不幸的是,我还找不到与此问题相关的任何内容。