问题标签 [standardized]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
587 浏览

deep-learning - 在自动编码器、病房层次聚类等之前标准化/规范化数据(二进制+数字)?

我有一个包含二进制数据(0,1)和不同单位的数字数据的数据集。如果我想应用一些机器学习技术对我的数据进行分类(可能是自动编码器或层次聚类),我应该标准化还是规范化数据?

谢谢!

0 投票
2 回答
5482 浏览

python - python pandas标准化回归列

我有以下df:

我正在为回归分析准备数据,并希望将 Event_Counts 列标准化,使其与类别具有相似的规模。

我使用以下代码:

虽然我确实收到了这个警告:

它似乎奏效了;有一个新列。但是,它有负数,例如 -1.3

我认为 scale 函数的作用是从数字中减去平均值,然后除以每行的标准差;然后将结果的最小值添加到每一行。

这样对熊猫不起作用吗?或者我应该使用 normalize() 函数还是 StandardScaler() 函数?我希望标准化列的范围为 0 到 1。

谢谢你

0 投票
1 回答
673 浏览

python - 在 Python Lasso 和 R glmnet 中标准化 X 不同?

我试图使用 Python 的 scikit-learn 和 R 的 glmnet 获得相同的结果拟合套索。一个有用的链接

如果我在 Python 中指定“normalize = True”,在 R 中指定“standardize = T”,它们给了我相同的结果。

Python:

回复:

但是,如果我不想标准化变量并设置 normalize =False 和 standardize = F,他们给了我完全不同的结果。

Python:

回复:

Python 的 Lasso 中的“标准化”和 R 的 glmnet 中的“标准化”有什么区别?

0 投票
1 回答
591 浏览

r - 使用月均值和标准差标准化数据

我有一个 50 年的数据集(这是每日值),格式如下:

日期 Var1 Var2 Var3 Var4 Var5 Var6

1994-01-01 2.2 0.1 98 0 7.5 3.6

1994-01-02 4.1 3.2 70 0 2.6 5.2

1994-01-03 10.7 3.3 0 76 4.3 4.5

1994-01-04 8.5 2.3 2.6 90 0 .5 0.6

我想按月标准化数据,即使用从 50 年的数据计算得出的每个月的平均值和 sd,并使用计算出的平均值和 sd 标准化每个变量。为此,首先我应该从 50 年中获取每个月的平均值和 sd(即总共有 12 个平均值和 12 个 sd 值)。我是 R 新手,我不知道如何计算 data.frame 中每个月的 50 年平均值。我使用以下函数来获取标准化值:

Std_data ← data.Normalization (data,type="n1",normalization="column")

但是,据我了解,上述方式使用整列的平均值和标准差给出了标准化值。我尝试使用函数“group_by”将数据逐月分开,还尝试了函数“subset”,但我仍然无法得到我想要的结果。

0 投票
0 回答
162 浏览

r - R knncat 错误 1:knots.vec[num.ctr]

如果这是在其他地方道歉(如果我的问题做得不好 - 这是我的第一篇文章)。我已经搜索了几天并解决了所有其他错误,但我不断收到这个错误:“1:knots.vec[num.ctr] 中的错误:NA/NaN 参数”。我试图从可能的 13 个变量中预测一个 4 组分类类(Q72to73_OpportunitySegments),其中 11 个是因子,2 个是数字。我将我的数据 as.data.frame 读取到 R (我事先删除了所有 NA 行)。我的代码适用于示例 Carseats 数据,并且在我不标准化我的两个数值变量(fldAge 和 fldSrvcYrs)时也适用。

这是适用于 Carseats 数据的代码:

我在我的数据上运行了上面的确切内容并得到了这个:

(这有帮助吗?)

1:knots.vec[num.ctr] 中的错误:NA/NaN 参数

此错误与一个或两个标准化变量有关(当我在未标准化的相同数据上运行相同的代码时,knncat运行)。任何想法如何解决这个问题?(很遗憾,由于《统计法》,我无法分享我的实际数据。)

0 投票
2 回答
2100 浏览

python - 在 Keras 中标准化 numpy 数组

在 Keras 训练我的模型之后,是时候进行预测了,所以我正在使用一些数据来检查我的模型。但是,经过训练的模型在训练之前是标准化的(值的范围非常不同)。

所以为了预测一些数据,我也应该标准化它:

输出始终为 0:[[ 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]]

有谁知道如何标准化 numpy 数组?

请注意,出现警告错误,DataConversionWarning: Data with input dtype int64 was converted to float64 by StandardScaler. warnings.warn(msg, _DataConversionWarning)但我不认为这是问题所在。

0 投票
1 回答
6984 浏览

python - 如何使用 sklearn 的 cross_val_score() 标准化数据

假设我想使用 LinearSVC 对数据集执行 k-fold-cross-validation。我将如何对数据进行标准化?

我读过的最佳实践是在训练数据上建立标准化模型,然后将此模型应用于测试数据。

当使用一个简单的 train_test_split() 时,这很容易,因为我们可以这样做:

在进行 k-fold-cross-validation 时如何标准化数据?问题来自这样一个事实,即每个数据点都将用于训练/测试,因此您无法在 cross_val_score() 之前标准化所有内容。对于每个交叉验证,您不需要不同的标准化吗?

文档没有提到函数内部发生的标准化。我是索尔吗?

编辑:这篇文章非常有帮助:Python - sklearn.pipeline.Pipeline 到底是什么?

0 投票
0 回答
31 浏览

c# - 标准化文本输入数据

我们从不受控制的外部来源接收到大量类型化的数据。数据涵盖家用电器的品牌/型号。因为我们无法控制强制验证/自动完成,所以这些数据的拼写/格式非常混乱。

我知道像弹性搜索这样的东西可以在查询时忽略拼写错误。但是,我希望能够对数据进行分组并自动规范化,以便对其进行分组。

我考虑过计算任何给定文本之间的 levenshtein 距离并将相似的条目分组在一起。然而,由于许多这些设备的名称中都有型号、容量等,因此会导致大量错误匹配。更不用说是一个相当计算密集的操作。

使用住宅燃气锅炉的示例

  • 威能 Ecotec Pro 28
  • 威联Ecotec Pro 28
  • 威能 Eco Tec 28 Pro
  • 威灵特 turbomax 242/2-5
  • POTTERTON Promax Combi 28 HE Plus
  • 波特顿 promax 28

前3个和最后2个是一样的。显然,错误的范围很大,包括格式和拼写。

0 投票
2 回答
920 浏览

arrays - CNN:数据标准化?

我正在研究一个神经网络来预测一个事件是否是中微子。每个输入 x 是一个矩阵:(3, 5484),三个不同的度量,5484 个传感器。

所以我应该规范化输入以使网络正常工作,但我对此表示怀疑,让我们解释一下:

我的数据集是:(x_1,....,x_N)。让我们只关注一个特征,并认为 x 是一个大小为 (5484) 的向量。然后每个 x 都有一个平均值:mean_x 和一个标准:std_x 但是标准化输入的重点是在不丢失信息的情况下重新缩放它(全局标准化,每个输入的标准化因子相同)对吗?

所以,我不确定我应该如何重新调整它。我应该将 (x_1, .., x_N) 展平为一维向量: (x_1, ..., x_5484*N) 并计算其均值和标准差吗?

还是我应该独立处理 5484 个输入通道中的每一个?

我有点迷路了。

0 投票
1 回答
454 浏览

modeling - 在 H2O 中对新数据使用标准化时

我很想知道,当在 R 中的 H2O 模型中使用标准化功能时,它在计算出新数据时是如何工作的。

我知道,当它对训练集进行标准化时,会根据训练数据的均值和标准差将均值设置为 0,标准差设置为 1,但是它对新数据有什么作用?

它是根据训练数据的均值和标准差进行标准化,还是根据正在评分的新数据进行标准化?