问题标签 [standardized]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
deep-learning - 在自动编码器、病房层次聚类等之前标准化/规范化数据(二进制+数字)?
我有一个包含二进制数据(0,1)和不同单位的数字数据的数据集。如果我想应用一些机器学习技术对我的数据进行分类(可能是自动编码器或层次聚类),我应该标准化还是规范化数据?
谢谢!
python - python pandas标准化回归列
我有以下df:
我正在为回归分析准备数据,并希望将 Event_Counts 列标准化,使其与类别具有相似的规模。
我使用以下代码:
虽然我确实收到了这个警告:
它似乎奏效了;有一个新列。但是,它有负数,例如 -1.3
我认为 scale 函数的作用是从数字中减去平均值,然后除以每行的标准差;然后将结果的最小值添加到每一行。
这样对熊猫不起作用吗?或者我应该使用 normalize() 函数还是 StandardScaler() 函数?我希望标准化列的范围为 0 到 1。
谢谢你
python - 在 Python Lasso 和 R glmnet 中标准化 X 不同?
我试图使用 Python 的 scikit-learn 和 R 的 glmnet 获得相同的结果拟合套索。一个有用的链接
如果我在 Python 中指定“normalize = True”,在 R 中指定“standardize = T”,它们给了我相同的结果。
Python:
回复:
但是,如果我不想标准化变量并设置 normalize =False 和 standardize = F,他们给了我完全不同的结果。
Python:
回复:
Python 的 Lasso 中的“标准化”和 R 的 glmnet 中的“标准化”有什么区别?
r - 使用月均值和标准差标准化数据
我有一个 50 年的数据集(这是每日值),格式如下:
日期 Var1 Var2 Var3 Var4 Var5 Var6
1994-01-01 2.2 0.1 98 0 7.5 3.6
1994-01-02 4.1 3.2 70 0 2.6 5.2
1994-01-03 10.7 3.3 0 76 4.3 4.5
1994-01-04 8.5 2.3 2.6 90 0 .5 0.6
我想按月标准化数据,即使用从 50 年的数据计算得出的每个月的平均值和 sd,并使用计算出的平均值和 sd 标准化每个变量。为此,首先我应该从 50 年中获取每个月的平均值和 sd(即总共有 12 个平均值和 12 个 sd 值)。我是 R 新手,我不知道如何计算 data.frame 中每个月的 50 年平均值。我使用以下函数来获取标准化值:
Std_data ← data.Normalization (data,type="n1",normalization="column")
但是,据我了解,上述方式使用整列的平均值和标准差给出了标准化值。我尝试使用函数“group_by”将数据逐月分开,还尝试了函数“subset”,但我仍然无法得到我想要的结果。
r - R knncat 错误 1:knots.vec[num.ctr]
如果这是在其他地方道歉(如果我的问题做得不好 - 这是我的第一篇文章)。我已经搜索了几天并解决了所有其他错误,但我不断收到这个错误:“1:knots.vec[num.ctr] 中的错误:NA/NaN 参数”。我试图从可能的 13 个变量中预测一个 4 组分类类(Q72to73_OpportunitySegments),其中 11 个是因子,2 个是数字。我将我的数据 as.data.frame 读取到 R (我事先删除了所有 NA 行)。我的代码适用于示例 Carseats 数据,并且在我不标准化我的两个数值变量(fldAge 和 fldSrvcYrs)时也适用。
这是适用于 Carseats 数据的代码:
我在我的数据上运行了上面的确切内容并得到了这个:
(这有帮助吗?)
1:knots.vec[num.ctr] 中的错误:NA/NaN 参数
此错误与一个或两个标准化变量有关(当我在未标准化的相同数据上运行相同的代码时,knncat
运行)。任何想法如何解决这个问题?(很遗憾,由于《统计法》,我无法分享我的实际数据。)
python - 在 Keras 中标准化 numpy 数组
在 Keras 训练我的模型之后,是时候进行预测了,所以我正在使用一些数据来检查我的模型。但是,经过训练的模型在训练之前是标准化的(值的范围非常不同)。
所以为了预测一些数据,我也应该标准化它:
输出始终为 0:[[ 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]]
有谁知道如何标准化 numpy 数组?
请注意,出现警告错误,DataConversionWarning: Data with input dtype int64 was converted to float64 by StandardScaler. warnings.warn(msg, _DataConversionWarning)
但我不认为这是问题所在。
python - 如何使用 sklearn 的 cross_val_score() 标准化数据
假设我想使用 LinearSVC 对数据集执行 k-fold-cross-validation。我将如何对数据进行标准化?
我读过的最佳实践是在训练数据上建立标准化模型,然后将此模型应用于测试数据。
当使用一个简单的 train_test_split() 时,这很容易,因为我们可以这样做:
在进行 k-fold-cross-validation 时如何标准化数据?问题来自这样一个事实,即每个数据点都将用于训练/测试,因此您无法在 cross_val_score() 之前标准化所有内容。对于每个交叉验证,您不需要不同的标准化吗?
文档没有提到函数内部发生的标准化。我是索尔吗?
编辑:这篇文章非常有帮助:Python - sklearn.pipeline.Pipeline 到底是什么?
c# - 标准化文本输入数据
我们从不受控制的外部来源接收到大量类型化的数据。数据涵盖家用电器的品牌/型号。因为我们无法控制强制验证/自动完成,所以这些数据的拼写/格式非常混乱。
我知道像弹性搜索这样的东西可以在查询时忽略拼写错误。但是,我希望能够对数据进行分组并自动规范化,以便对其进行分组。
我考虑过计算任何给定文本之间的 levenshtein 距离并将相似的条目分组在一起。然而,由于许多这些设备的名称中都有型号、容量等,因此会导致大量错误匹配。更不用说是一个相当计算密集的操作。
使用住宅燃气锅炉的示例
- 威能 Ecotec Pro 28
- 威联Ecotec Pro 28
- 威能 Eco Tec 28 Pro
- 威灵特 turbomax 242/2-5
- POTTERTON Promax Combi 28 HE Plus
- 波特顿 promax 28
前3个和最后2个是一样的。显然,错误的范围很大,包括格式和拼写。
arrays - CNN:数据标准化?
我正在研究一个神经网络来预测一个事件是否是中微子。每个输入 x 是一个矩阵:(3, 5484),三个不同的度量,5484 个传感器。
所以我应该规范化输入以使网络正常工作,但我对此表示怀疑,让我们解释一下:
我的数据集是:(x_1,....,x_N)。让我们只关注一个特征,并认为 x 是一个大小为 (5484) 的向量。然后每个 x 都有一个平均值:mean_x 和一个标准:std_x 但是标准化输入的重点是在不丢失信息的情况下重新缩放它(全局标准化,每个输入的标准化因子相同)对吗?
所以,我不确定我应该如何重新调整它。我应该将 (x_1, .., x_N) 展平为一维向量: (x_1, ..., x_5484*N) 并计算其均值和标准差吗?
还是我应该独立处理 5484 个输入通道中的每一个?
我有点迷路了。
modeling - 在 H2O 中对新数据使用标准化时
我很想知道,当在 R 中的 H2O 模型中使用标准化功能时,它在计算出新数据时是如何工作的。
我知道,当它对训练集进行标准化时,会根据训练数据的均值和标准差将均值设置为 0,标准差设置为 1,但是它对新数据有什么作用?
它是根据训练数据的均值和标准差进行标准化,还是根据正在评分的新数据进行标准化?