问题标签 [standardization]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
66 浏览

data-science - 分类变量的标准化或缩放

我对数据科学相当陌生。我正在研究使用基于产品编号和商店编号作为预测变量的线性回归来预测销售需求的用例。可以有许多带有数值的商店和产品。如果这些变量/预测变量的值是数字、无界和不同比例,我是否需要标准化或缩放这些变量/预测变量?我相信如果我尝试使用交互术语,我会对其进行标准化吗?

0 投票
0 回答
177 浏览

machine-learning - sklearn标准化后如何取回原始值

StandardScaler()用来标准化输入。
如何将预测转换回原始数据?我正在使用以下代码,但它会引发错误。

  • 形状X_test(3000, 2)
  • 形状sample_predict(1, 2)

错误:

0 投票
1 回答
34 浏览

python - Python CNN 模型训练中的数据归一化

我正在用 Python 对 CNN 进行模型训练,我有一个问题。我知道数据规范化对于将数据帧中的数据在 0 和 1 之间缩放很重要,但是假设我在数据帧上执行 z 分数标准化垂直(这意味着在每个功能的范围内缩放数据),但是在我部署之后模型并想在现实世界的场景中使用它,我的数据框中只有一行数据(但具有相同数量的特征),我无法再执行规范化,因为每个特征只有一个数据。标准偏差将为 0,并且 z 分数中的 0 除法不适用。

我想确认我还需要在现实世界场景中执行数据规范化吗?如果我不需要,结果是否会因为我在模型训练期间进行归一化而有所不同?

0 投票
0 回答
38 浏览

python - 选择不标准化分层贝叶斯回归(pymc3)中的自变量时如何缩放超先验

背景

社区中有很多关于如何标准化自变量(减去平均值然后除以标准差)有利于提高 MCMC 采样效率的讨论,而不是数学要求(John K. Kruschke,https: //stats.stackexchange.com/q/273209 . Andrew Gelman 等人 (2008, p. 4-5) 和 Osvaldo Martin (2018, p. 96) 提到的其他主要好处是自变量允许我们使用相同的弱信息先验/超先验,随后意味着所有系数都可以用 z 分数来解释。

因此,我们有两个选择:i)标准化自变量,在这种情况下先验的规模可以保持不变,或者 ii)不标准化自变量,在这种情况下,需要手动设置先验的规模. 这是我的问题所指的第二个选项。

业务问题

我正在为购物类别(即男士沐浴露)构建一个层次模型。因变量是数量,其中每个观察值都是每周的 SKU(库存单位)水平。层次结构使得产品线中的每个 SKU 与该产品线中的所有其他 SKU 共享相同的系数。产品线是同一品牌内的一组 SKU,它们是几乎相同的产品,只有不同的气味/颜色等。我们还将因变量除以 SKU 级别的平均值,以便模型可以估计当您在同一产品线中有一些小批量 SKU 和一些大批量 SKU 时,这些系数是有意义的。

在下面的简单示例中,有 3 个变量和截距。变量的比例如下: rrp - 推荐零售价。大多数 SKU 是 $20-$60 discount_amount - 此变量经过 atan 转换以形成“S”形;比例为 0-1 mu_comp_launch_steal - 此变量的值是竞争对手产品发布蚕食的数量(数量);比例从 0 到 ~5000 不等,具体取决于产品

Question: how do I scale the hyperpriors when choosing not to standardize the independent variables?

使用 pm.Model() 作为分层模型:

参考

[1] John K. Kruschke ( https://stats.stackexchange.com/users/16592/john-k-kruschke),MCMC贝叶斯方法 - 居中和标准化,URL(版本:2017-04-11):https: //stats.stackexchange.com/q/273209

[2] Andrew Gelman、Aleks Jakulin、Maria Grazia Pittau、Yu-Sung Su。“逻辑和其他回归模型的信息量较弱的默认先验分布。” 应用统计年鉴,2(4) 1360-1383 2008 年 12 月。第 1363 页。

[3] 奥斯瓦尔多·马丁。使用 Python 进行贝叶斯分析:使用 PyMC3 和 ArviZ 进行统计建模和概率编程的介绍。第 2 版。2018. 第 96 页奥斯瓦尔多·马丁。“使用 Python 进行贝叶斯分析”。第 96 页。

0 投票
0 回答
20 浏览

standardization - 使用 for 循环标准化数据框

我想通过使用 for 循环来标准化我的数据框。我得到了列的平均值和标准差,但我不能将平均值与标准差分开。我总是收到“超出范围”的错误消息。

有人可以给我建议吗?

0 投票
1 回答
39 浏览

python - 添加特定行并更改其位置

在此处输入图像描述

我有一个例子(在图像描述中留下一个)。

第一列中有几个索引。但是,重复字符的第三个(不仅仅是第三个,因为我有来自一千多个重复间隔的数据)是缺失数据,即“GG”。

问题:我想添加值为“NaN”的特定行(如“GG”)

我想根据重复部分的字符(从'II'到'//\n')在不同的列中显示它的值。

在这种情况下我有什么办法吗?

0 投票
0 回答
17 浏览

r - 如果我想选择要在进一步分析中使用的变量,如何在 glmnet 和 cv.glmnet 中标准化 X?

我对 glmnet 中的标准化感到非常困惑。

我有 500 个变量(化学品),每个变量都有 3 个估计水平,这意味着我实际上在数据集中有 1500 个变量(X)。现在我想排除对结果(Y)没有重要作用的化学物质,所以我使用 glmnet 来选择它们。

我正在训练我的数据并尝试按如下方式应用 glmnet:

我读到默认值是standardize = TRUEif family = 'gaussian',所以我将它添加到我的代码中。但随后,表明系数将按原始比例返回。

所以我的问题是:

如果变量(化学品)有不同的单位,我还应该Scale(X)standardize = TRUEcv.glmnet 和 glmnet 中做些什么?因为最后,我用它来通过变量包含概率来选择我需要的变量:

先感谢您!

(我也在Cross Validated上发帖,但如果违反规则,我会删除它!)

0 投票
1 回答
160 浏览

python - 使用 StandardScaler 仅标准化数值特征

我有以下数据集:

salary先用标签编码器编码le_salary,然后用序数编码器编码oe_salary。然后我department用 OneHotEncoder编码ohe_department。我将所有内容合并,现在有一个concat_df. 现在我想做一个逻辑回归,但要标准化,这就是我遇到问题的地方。这是我的价值观和训练/测试拆分:

然后我尝试使用以下代码仅标准化数值:

但是,我收到以下错误,我并不理解,因为我之前已经对其进行了标准化,没有任何问题。

为什么我会收到此错误,这是什么意思?

0 投票
1 回答
47 浏览

image - 图像标准化

我想问一下关于cnn分类任务的图像预处理。我对输入数据进行了标准化(平均值 = 0,标准差 = 1),我得到的结果范围为 [-1.1]。如何在结果范围 [0,1] 中使用该技术?以便图像可以可视化。

0 投票
1 回答
28 浏览

r - 根据个体稀有我的物种数据

我是 R 新手,所以我提前道歉。我沿海拔梯度对飞蛾进行了采样,共有 8 个不同的地点。我在每个海拔高度都有不相等的采样夜。由于我的采样夜不均等,我想通过根据我得到的个体稀有我的物种来标准化我的物种。我对如何稀释我的物种数据感到困惑。从稀有包(rarefy(x,sample,se = FALSE,MARGIN = 1),我不明白如何指定我的样本/子样本编号。这将是我从网站获得的最少人数吗?非常感谢你