“standardized”的相关标签问题

0 投票

1 回答

587 浏览

deep-learning - 在自动编码器、病房层次聚类等之前标准化/规范化数据（二进制+数字）？

我有一个包含二进制数据（0,1）和不同单位的数字数据的数据集。如果我想应用一些机器学习技术对我的数据进行分类（可能是自动编码器或层次聚类），我应该标准化还是规范化数据？

谢谢！

2017-04-10T17:42:13.153

0 投票

2 回答

5482 浏览

python - python pandas标准化回归列

我有以下df：

我正在为回归分析准备数据，并希望将 Event_Counts 列标准化，使其与类别具有相似的规模。

我使用以下代码：

虽然我确实收到了这个警告：

它似乎奏效了；有一个新列。但是，它有负数，例如 -1.3

我认为 scale 函数的作用是从数字中减去平均值，然后除以每行的标准差；然后将结果的最小值添加到每一行。

这样对熊猫不起作用吗？或者我应该使用 normalize() 函数还是 StandardScaler() 函数？我希望标准化列的范围为 0 到 1。

谢谢你

python pandas scale normalize standardized

2017-04-17T19:52:47.240

0 投票

1 回答

673 浏览

python - 在 Python Lasso 和 R glmnet 中标准化 X 不同？

我试图使用 Python 的 scikit-learn 和 R 的 glmnet 获得相同的结果拟合套索。一个有用的链接

如果我在 Python 中指定“normalize = True”，在 R 中指定“standardize = T”，它们给了我相同的结果。

Python：

回复：

但是，如果我不想标准化变量并设置 normalize =False 和 standardize = F，他们给了我完全不同的结果。

Python：

回复：

Python 的 Lasso 中的“标准化”和 R 的 glmnet 中的“标准化”有什么区别？

python r lasso-regression standardized

2017-04-26T06:16:51.077

0 投票

1 回答

591 浏览

r - 使用月均值和标准差标准化数据

我有一个 50 年的数据集（这是每日值），格式如下：

日期 Var1 Var2 Var3 Var4 Var5 Var6

1994-01-01 2.2 0.1 98 0 7.5 3.6

1994-01-02 4.1 3.2 70 0 2.6 5.2

1994-01-03 10.7 3.3 0 76 4.3 4.5

1994-01-04 8.5 2.3 2.6 90 0 .5 0.6

我想按月标准化数据，即使用从 50 年的数据计算得出的每个月的平均值和 sd，并使用计算出的平均值和 sd 标准化每个变量。为此，首先我应该从 50 年中获取每个月的平均值和 sd（即总共有 12 个平均值和 12 个 sd 值）。我是 R 新手，我不知道如何计算 data.frame 中每个月的 50 年平均值。我使用以下函数来获取标准化值：

Std_data ← data.Normalization (data,type="n1",normalization="column")

但是，据我了解，上述方式使用整列的平均值和标准差给出了标准化值。我尝试使用函数“group_by”将数据逐月分开，还尝试了函数“subset”，但我仍然无法得到我想要的结果。

r standardized

2017-05-10T14:07:48.573

0 投票

0 回答

162 浏览

r - R knncat 错误 1:knots.vec[num.ctr]

如果这是在其他地方道歉（如果我的问题做得不好 - 这是我的第一篇文章）。我已经搜索了几天并解决了所有其他错误，但我不断收到这个错误：“1:knots.vec[num.ctr] 中的错误：NA/NaN 参数”。我试图从可能的 13 个变量中预测一个 4 组分类类（Q72to73_OpportunitySegments），其中 11 个是因子，2 个是数字。我将我的数据 as.data.frame 读取到 R （我事先删除了所有 NA 行）。我的代码适用于示例 Carseats 数据，并且在我不标准化我的两个数值变量（fldAge 和 fldSrvcYrs）时也适用。

这是适用于 Carseats 数据的代码：

我在我的数据上运行了上面的确切内容并得到了这个：

（这有帮助吗？）

1:knots.vec[num.ctr] 中的错误：NA/NaN 参数

此错误与一个或两个标准化变量有关（当我在未标准化的相同数据上运行相同的代码时，knncat运行）。任何想法如何解决这个问题？（很遗憾，由于《统计法》，我无法分享我的实际数据。）

r knn standardized

2017-05-18T17:01:08.900

0 投票

2 回答

2100 浏览

python - 在 Keras 中标准化 numpy 数组

在 Keras 训练我的模型之后，是时候进行预测了，所以我正在使用一些数据来检查我的模型。但是，经过训练的模型在训练之前是标准化的（值的范围非常不同）。

所以为了预测一些数据，我也应该标准化它：

输出始终为 0：[[ 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]]

有谁知道如何标准化 numpy 数组？

请注意，出现警告错误，DataConversionWarning: Data with input dtype int64 was converted to float64 by StandardScaler. warnings.warn(msg, _DataConversionWarning)但我不认为这是问题所在。

python numpy keras standardized

2017-05-22T08:05:34.377

0 投票

1 回答

6984 浏览

python - 如何使用 sklearn 的 cross_val_score() 标准化数据

假设我想使用 LinearSVC 对数据集执行 k-fold-cross-validation。我将如何对数据进行标准化？

我读过的最佳实践是在训练数据上建立标准化模型，然后将此模型应用于测试数据。

当使用一个简单的 train_test_split() 时，这很容易，因为我们可以这样做：

在进行 k-fold-cross-validation 时如何标准化数据？问题来自这样一个事实，即每个数据点都将用于训练/测试，因此您无法在 cross_val_score() 之前标准化所有内容。对于每个交叉验证，您不需要不同的标准化吗？

文档没有提到函数内部发生的标准化。我是索尔吗？

编辑：这篇文章非常有帮助：Python - sklearn.pipeline.Pipeline 到底是什么？

python scikit-learn svm cross-validation standardized

2017-06-08T22:23:22.167

0 投票

0 回答

31 浏览

c# - 标准化文本输入数据

我们从不受控制的外部来源接收到大量类型化的数据。数据涵盖家用电器的品牌/型号。因为我们无法控制强制验证/自动完成，所以这些数据的拼写/格式非常混乱。

我知道像弹性搜索这样的东西可以在查询时忽略拼写错误。但是，我希望能够对数据进行分组并自动规范化，以便对其进行分组。

我考虑过计算任何给定文本之间的 levenshtein 距离并将相似的条目分组在一起。然而，由于许多这些设备的名称中都有型号、容量等，因此会导致大量错误匹配。更不用说是一个相当计算密集的操作。

使用住宅燃气锅炉的示例

威能 Ecotec Pro 28
威联Ecotec Pro 28
威能 Eco Tec 28 Pro
威灵特 turbomax 242/2-5
POTTERTON Promax Combi 28 HE Plus
波特顿 promax 28

前3个和最后2个是一样的。显然，错误的范围很大，包括格式和拼写。

c#normalization levenshtein-distance standardized

2017-06-21T09:06:46.587

0 投票

2 回答

920 浏览

arrays - CNN：数据标准化？

我正在研究一个神经网络来预测一个事件是否是中微子。每个输入 x 是一个矩阵：(3, 5484)，三个不同的度量，5484 个传感器。

所以我应该规范化输入以使网络正常工作，但我对此表示怀疑，让我们解释一下：

我的数据集是：（x_1，....，x_N）。让我们只关注一个特征，并认为 x 是一个大小为 (5484) 的向量。然后每个 x 都有一个平均值：mean_x 和一个标准：std_x 但是标准化输入的重点是在不丢失信息的情况下重新缩放它（全局标准化，每个输入的标准化因子相同）对吗？

所以，我不确定我应该如何重新调整它。我应该将 (x_1, .., x_N) 展平为一维向量： (x_1, ..., x_5484*N) 并计算其均值和标准差吗？

还是我应该独立处理 5484 个输入通道中的每一个？

我有点迷路了。

arrays matrix neural-network standardized

2017-06-26T21:14:32.840

0 投票

1 回答

454 浏览

modeling - 在 H2O 中对新数据使用标准化时

我很想知道，当在 R 中的 H2O 模型中使用标准化功能时，它在计算出新数据时是如何工作的。

我知道，当它对训练集进行标准化时，会根据训练数据的均值和标准差将均值设置为 0，标准差设置为 1，但是它对新数据有什么作用？

它是根据训练数据的均值和标准差进行标准化，还是根据正在评分的新数据进行标准化？

modeling h2o standardized

2017-08-14T23:43:10.870

问题标签 [standardized]

Reference