问题标签 [standardization]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
44 浏览

r - 在将响应变量删除以进行标准化后,如何将其重新合并到数据框中?

我有一个包含 61 列(60 个解释变量和 1 个响应变量)的数据集。

所有的解释变量都是数字的,响应是分类的(默认)。一些前。变量具有负值(财务数据),因此标准化而不是标准化似乎更明智。但是,当使用“应用”函数进行标准化时,我必须先删除响应变量,所以我这样做:

模型 <- read.table ......

到目前为止一切顺利,数据已标准化。但是,现在我想将响应变量添加回“modelSTAN”。我已经看过一些关于 dplyr、merge-functions 和 rbind 的帖子,但我不能完全开始工作,因此响应只会作为最后一列添加回我的“modelSTAN”。

有没有人对此有一个好的解决方案,或者可能是另一种解决方法来标准化它而不首先删除响应变量?

我对 R 很陌生,因为我是一名金融专业的学生,​​并将 R 作为选修课。

0 投票
1 回答
59 浏览

r - 标准化 R 中的向量,使值向边界移动

我的向量如下 -

这个向量的范围是从 -1 到 1,它看起来像 -

> plot(a)

在此处输入图像描述 有没有办法标准化向量a,使所有值都远离零并移向 1 或 -1?(靠近红线)。

如果我能控制这些值向 1 或 -1 移动的程度,那就太好了。

0 投票
0 回答
53 浏览

statistics - 中值集中化和中值标准化

我对让我的样品相互比较有疑问。我对每 2 组(测试和控制)有 3 个重复。我想看看蛋白质是如何变化的。为此,我首先对复制的每一列进行中值集中。然后,我应用了一个统计测试来比较 2 个不同的条件,以找出哪些蛋白质在统计上发生了变化。然后,我将测试组蛋白质划分为控制并取 log2 值。最后,我画了火山图。(因为我不是在比较样本,而是在比较蛋白质,所以我认为应用集中化不是问题)。

你认为我的方法是真的吗?我知道在集中数据时,每个蛋白质水平之间的标准差未标准化为 1。但是,在哪些情况下应该使用中值标准化,在哪些情况下应该使用中值集中化。我遇到过许多研究人员不知道中值标准化和应用中值缩放(将数据的每个复制除以中值)。我对这个概念不太熟悉,对我应该在哪个数据集中使用规范化或标准化有一点疑问。先感谢您。

0 投票
1 回答
33 浏览

geolocation - 如何标准化用户插入的城市名称

我需要编写一个小型 ETL 管道,因为我需要将一些数据从源数据库移动到目标数据库(数据仓库)以对数据执行一些分析。

在这些数据中,我需要清理和符合城市名称。城市是由国际用户手动插入的,因此对于一个城市,我可以有多个名称(例如伦敦或伦敦)。在我的源数据库中,我不仅有大城市,还有小村庄。

好吧,如果我不标准化城市名称,我们的分析可能是荒谬的。

在我的目标数据库中标准化城市的最佳实践是什么?有什么想法或建议我可以承担吗?

谢谢

0 投票
1 回答
37 浏览

python - 使用 Scikit-learn 中的 Column Transformer 时如何找出 StandardScaling 参数 .mean_ 和 .scale_?

我想使用函数sklearn.compose.ColumnTransformer, 仅将 StandardScaler 应用于我的数据集的数字部分(其余部分已经是 one-hot 编码的)。我想查看适合训练数据的参数,但是在使用柱式变压器时,该功能.scale_显然不起作用。有没有办法这样做?.mean_scaler.mean_scaler.scale_

0 投票
3 回答
49 浏览

python - 标准化 DF 的更快方法

我有一个包含大约 3000 个变量和 14000 个数据点的 df。

我需要在组内和 df 内标准化 df,总共创建 6000 个变量。

我目前的实现如下:

上面的代码需要永远运行。

分别计算这两个操作的平均速度表明 groupby-transform 明显更慢。

这是一个简单的示例 df 和所需的输出。

0 投票
0 回答
121 浏览

tensorflow - Tensorflows LayerNormalization 作为实例规范化

我想在应用激活函数之前对每个通道上的 CNN 内的图像进行归一化。这就是 pytorch 中的 InstanceNorm2d 所做的,我想我可以通过使用LayerNormalization带有参数的张量流来模仿这种行为axis=-1,因为轴是(N、H、W、C)。这是我的输入图像,形状为 (1, 128, 128, 1)。输入图像

如果我以这种方式应用规范化,我的输出图像如下所示: 输出带有奇怪噪声的图像

我不明白这种行为,有谁知道我错了什么?任何帮助深表感谢!

0 投票
0 回答
74 浏览

python - 使用 Python 进行原始规模的时间序列标准化和预测

我有一个平台上用户注册数量的每日时间序列数据。该系列是非平稳的,即使在使用对数变换或取差值(一阶或季节性差分)之后,它的方差似乎也不是恒定的。

作为一种解决方案,我使用标准化((x - 滚动平均值)/滚动标准偏差)和差分作为带来平稳性的方法。但问题是,一旦将模型拟合到这个平稳序列上,如何将未来预测带入原始尺度?

在不知道该时期的滚动统计数据的情况下,您将如何恢复未来预测的标准化操作?

0 投票
2 回答
24 浏览

r - 仅标准化数据集中(R)中的一些变量的正确语法是什么?

起初我试过:

我在这里省略了一个变量,但它仍然是标准化的。我找不到任何关于正确语法的文章,所以请帮忙。

0 投票
1 回答
72 浏览

r - glmnet 包中的“standardize =”选项

我有一个关于 glmnet 包中的标准化选项的问题。
我知道为了使系数有意义,回归分析需要缩放或标准化数据集。
通常,对于线性回归(例如,使用 R 中的 glm 函数),我在运行 glm 模型之前使用 scale() 函数手动缩放数据集。
然而,似乎在使用 glmnet 包(用于正则化回归)时,标准化选项确实标准化了数据集,从而使系数本身有意义(可比较)。我对么?

如果这是正确的,假设我运行以下代码。事实证明,变量“x3”的系数最高(在绝对值范围内)。那么我可以得出结论,变量“x3”是区分类别中最重要的变量吗???

我期待听到任何意见!谢谢。