问题标签 [standardization]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 在将响应变量删除以进行标准化后,如何将其重新合并到数据框中?
我有一个包含 61 列(60 个解释变量和 1 个响应变量)的数据集。
所有的解释变量都是数字的,响应是分类的(默认)。一些前。变量具有负值(财务数据),因此标准化而不是标准化似乎更明智。但是,当使用“应用”函数进行标准化时,我必须先删除响应变量,所以我这样做:
模型 <- read.table ......
到目前为止一切顺利,数据已标准化。但是,现在我想将响应变量添加回“modelSTAN”。我已经看过一些关于 dplyr、merge-functions 和 rbind 的帖子,但我不能完全开始工作,因此响应只会作为最后一列添加回我的“modelSTAN”。
有没有人对此有一个好的解决方案,或者可能是另一种解决方法来标准化它而不首先删除响应变量?
我对 R 很陌生,因为我是一名金融专业的学生,并将 R 作为选修课。
statistics - 中值集中化和中值标准化
我对让我的样品相互比较有疑问。我对每 2 组(测试和控制)有 3 个重复。我想看看蛋白质是如何变化的。为此,我首先对复制的每一列进行中值集中。然后,我应用了一个统计测试来比较 2 个不同的条件,以找出哪些蛋白质在统计上发生了变化。然后,我将测试组蛋白质划分为控制并取 log2 值。最后,我画了火山图。(因为我不是在比较样本,而是在比较蛋白质,所以我认为应用集中化不是问题)。
你认为我的方法是真的吗?我知道在集中数据时,每个蛋白质水平之间的标准差未标准化为 1。但是,在哪些情况下应该使用中值标准化,在哪些情况下应该使用中值集中化。我遇到过许多研究人员不知道中值标准化和应用中值缩放(将数据的每个复制除以中值)。我对这个概念不太熟悉,对我应该在哪个数据集中使用规范化或标准化有一点疑问。先感谢您。
geolocation - 如何标准化用户插入的城市名称
我需要编写一个小型 ETL 管道,因为我需要将一些数据从源数据库移动到目标数据库(数据仓库)以对数据执行一些分析。
在这些数据中,我需要清理和符合城市名称。城市是由国际用户手动插入的,因此对于一个城市,我可以有多个名称(例如伦敦或伦敦)。在我的源数据库中,我不仅有大城市,还有小村庄。
好吧,如果我不标准化城市名称,我们的分析可能是荒谬的。
在我的目标数据库中标准化城市的最佳实践是什么?有什么想法或建议我可以承担吗?
谢谢
python - 使用 Scikit-learn 中的 Column Transformer 时如何找出 StandardScaling 参数 .mean_ 和 .scale_?
我想使用函数sklearn.compose.ColumnTransformer
, 仅将 StandardScaler 应用于我的数据集的数字部分(其余部分已经是 one-hot 编码的)。我想查看适合训练数据的参数,但是在使用柱式变压器时,该功能.scale_
显然不起作用。有没有办法这样做?.mean_
scaler.mean_
scaler.scale_
python - 标准化 DF 的更快方法
我有一个包含大约 3000 个变量和 14000 个数据点的 df。
我需要在组内和 df 内标准化 df,总共创建 6000 个变量。
我目前的实现如下:
上面的代码需要永远运行。
分别计算这两个操作的平均速度表明 groupby-transform 明显更慢。
这是一个简单的示例 df 和所需的输出。
python - 使用 Python 进行原始规模的时间序列标准化和预测
我有一个平台上用户注册数量的每日时间序列数据。该系列是非平稳的,即使在使用对数变换或取差值(一阶或季节性差分)之后,它的方差似乎也不是恒定的。
作为一种解决方案,我使用标准化((x - 滚动平均值)/滚动标准偏差)和差分作为带来平稳性的方法。但问题是,一旦将模型拟合到这个平稳序列上,如何将未来预测带入原始尺度?
在不知道该时期的滚动统计数据的情况下,您将如何恢复未来预测的标准化操作?
r - 仅标准化数据集中(R)中的一些变量的正确语法是什么?
起初我试过:
我在这里省略了一个变量,但它仍然是标准化的。我找不到任何关于正确语法的文章,所以请帮忙。
r - glmnet 包中的“standardize =”选项
我有一个关于 glmnet 包中的标准化选项的问题。
我知道为了使系数有意义,回归分析需要缩放或标准化数据集。
通常,对于线性回归(例如,使用 R 中的 glm 函数),我在运行 glm 模型之前使用 scale() 函数手动缩放数据集。
然而,似乎在使用 glmnet 包(用于正则化回归)时,标准化选项确实标准化了数据集,从而使系数本身有意义(可比较)。我对么?
如果这是正确的,假设我运行以下代码。事实证明,变量“x3”的系数最高(在绝对值范围内)。那么我可以得出结论,变量“x3”是区分类别中最重要的变量吗???
我期待听到任何意见!谢谢。