“standardization”的相关标签问题

0 投票

1 回答

44 浏览

r - 在将响应变量删除以进行标准化后，如何将其重新合并到数据框中？

我有一个包含 61 列（60 个解释变量和 1 个响应变量）的数据集。

所有的解释变量都是数字的，响应是分类的（默认）。一些前。变量具有负值（财务数据），因此标准化而不是标准化似乎更明智。但是，当使用“应用”函数进行标准化时，我必须先删除响应变量，所以我这样做：

模型 <- read.table ......

到目前为止一切顺利，数据已标准化。但是，现在我想将响应变量添加回“modelSTAN”。我已经看过一些关于 dplyr、merge-functions 和 rbind 的帖子，但我不能完全开始工作，因此响应只会作为最后一列添加回我的“modelSTAN”。

有没有人对此有一个好的解决方案，或者可能是另一种解决方法来标准化它而不首先删除响应变量？

我对 R 很陌生，因为我是一名金融专业的学生，并将 R 作为选修课。

r standardization

2021-02-02T19:46:52.713

0 投票

1 回答

59 浏览

r - 标准化 R 中的向量，使值向边界移动

我的向量如下 -

这个向量的范围是从 -1 到 1，它看起来像 -

> plot(a)

有没有办法标准化向量a，使所有值都远离零并移向 1 或 -1？（靠近红线）。

如果我能控制这些值向 1 或 -1 移动的程度，那就太好了。

r standardization

2021-03-22T21:49:53.743

0 投票

0 回答

53 浏览

statistics - 中值集中化和中值标准化

我对让我的样品相互比较有疑问。我对每 2 组（测试和控制）有 3 个重复。我想看看蛋白质是如何变化的。为此，我首先对复制的每一列进行中值集中。然后，我应用了一个统计测试来比较 2 个不同的条件，以找出哪些蛋白质在统计上发生了变化。然后，我将测试组蛋白质划分为控制并取 log2 值。最后，我画了火山图。（因为我不是在比较样本，而是在比较蛋白质，所以我认为应用集中化不是问题）。

你认为我的方法是真的吗？我知道在集中数据时，每个蛋白质水平之间的标准差未标准化为 1。但是，在哪些情况下应该使用中值标准化，在哪些情况下应该使用中值集中化。我遇到过许多研究人员不知道中值标准化和应用中值缩放（将数据的每个复制除以中值）。我对这个概念不太熟悉，对我应该在哪个数据集中使用规范化或标准化有一点疑问。先感谢您。

statistics normalization scaling statistical-test standardization

2021-04-19T18:07:18.353

0 投票

1 回答

33 浏览

geolocation - 如何标准化用户插入的城市名称

我需要编写一个小型 ETL 管道，因为我需要将一些数据从源数据库移动到目标数据库（数据仓库）以对数据执行一些分析。

在这些数据中，我需要清理和符合城市名称。城市是由国际用户手动插入的，因此对于一个城市，我可以有多个名称（例如伦敦或伦敦）。在我的源数据库中，我不仅有大城市，还有小村庄。

好吧，如果我不标准化城市名称，我们的分析可能是荒谬的。

在我的目标数据库中标准化城市的最佳实践是什么？有什么想法或建议我可以承担吗？

谢谢

geolocation etl data-warehouse standardization

2021-04-23T20:05:09.240

0 投票

1 回答

37 浏览

python - 使用 Scikit-learn 中的 Column Transformer 时如何找出 StandardScaling 参数 .mean_ 和 .scale_？

我想使用函数sklearn.compose.ColumnTransformer, 仅将 StandardScaler 应用于我的数据集的数字部分（其余部分已经是 one-hot 编码的）。我想查看适合训练数据的参数，但是在使用柱式变压器时，该功能.scale_显然不起作用。有没有办法这样做？.mean_scaler.mean_scaler.scale_

python machine-learning scikit-learn standardization

2021-05-03T19:38:06.550

0 投票

3 回答

49 浏览

python - 标准化 DF 的更快方法

我有一个包含大约 3000 个变量和 14000 个数据点的 df。

我需要在组内和 df 内标准化 df，总共创建 6000 个变量。

我目前的实现如下：

上面的代码需要永远运行。

分别计算这两个操作的平均速度表明 groupby-transform 明显更慢。

这是一个简单的示例 df 和所需的输出。

python pandas dataframe optimization standardization

2021-06-05T15:28:15.923

0 投票

0 回答

121 浏览

tensorflow - Tensorflows LayerNormalization 作为实例规范化

我想在应用激活函数之前对每个通道上的 CNN 内的图像进行归一化。这就是 pytorch 中的 InstanceNorm2d 所做的，我想我可以通过使用LayerNormalization带有参数的张量流来模仿这种行为axis=-1，因为轴是（N、H、W、C）。这是我的输入图像，形状为 (1, 128, 128, 1)。

如果我以这种方式应用规范化，我的输出图像如下所示：

我不明白这种行为，有谁知道我错了什么？任何帮助深表感谢！

tensorflow conv-neural-network normalization keras-layer standardization

2021-06-23T11:33:56.533

0 投票

0 回答

74 浏览

python - 使用 Python 进行原始规模的时间序列标准化和预测

我有一个平台上用户注册数量的每日时间序列数据。该系列是非平稳的，即使在使用对数变换或取差值（一阶或季节性差分）之后，它的方差似乎也不是恒定的。

作为一种解决方案，我使用标准化（（x - 滚动平均值）/滚动标准偏差）和差分作为带来平稳性的方法。但问题是，一旦将模型拟合到这个平稳序列上，如何将未来预测带入原始尺度？

在不知道该时期的滚动统计数据的情况下，您将如何恢复未来预测的标准化操作？

python time-series normalization forecast standardization

2021-07-02T15:23:54.053

0 投票

2 回答

24 浏览

r - 仅标准化数据集中（R）中的一些变量的正确语法是什么？

起初我试过：

我在这里省略了一个变量，但它仍然是标准化的。我找不到任何关于正确语法的文章，所以请帮忙。

r standardization

2021-07-18T01:56:10.903

0 投票

1 回答

72 浏览

r - glmnet 包中的“standardize =”选项

我有一个关于 glmnet 包中的标准化选项的问题。
我知道为了使系数有意义，回归分析需要缩放或标准化数据集。
通常，对于线性回归（例如，使用 R 中的 glm 函数），我在运行 glm 模型之前使用 scale() 函数手动缩放数据集。
然而，似乎在使用 glmnet 包（用于正则化回归）时，标准化选项确实标准化了数据集，从而使系数本身有意义（可比较）。我对么？

如果这是正确的，假设我运行以下代码。事实证明，变量“x3”的系数最高（在绝对值范围内）。那么我可以得出结论，变量“x3”是区分类别中最重要的变量吗？？？

我期待听到任何意见！谢谢。

r scale glmnet lasso-regression standardization

2021-07-28T15:56:44.330

问题标签 [standardization]

Reference