问题标签 [standardized]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - Stargazer 中标准化/非标准化系数的不同意义
我已经使用对大型数据集执行了多元线性回归
使用 lm.beta 添加标准化 beta 系数
并使用 stargazer 将结果制成表格
输出给了我两列系数,但是,其中一些的显着性值是不同的,当标准化不标准化时,非标准化通常显着
这篇文章的答案:在观星表中包含标准化系数仅对常量显示相同的内容(他们不评论它),而我的许多变量都有它。
为什么会发生这种情况,它是我的代码中的错误还是在统计上有效?我看不出标准化应该如何改变重要性。
谢谢!
scikit-learn - 在 scikit-learn permutation_test_score 中进行缩放
我正在使用 scikit-learn "permutation_test_score" 方法来评估我的估计器性能的重要性。不幸的是,我无法从 scikit-learn 文档中了解该方法是否实现了对数据的任何缩放。我使用通过 StandardScaler 标准化我的数据,将训练集标准化应用于测试集。
machine-learning - 对展开的时间步进行切片 StandardScaler
这是一个简化的解释:我有一个包含多个展开时间步长的数据框,用于预测 price2 和 volume2(下一步)。在训练我的网络之前,我想使用StandardScaler。
但是,当我反转预测的数据时,我现在面临的挑战是 StandardScaler 调整为 4 的长度,因此不能应用于我的输出长度 2。
处理这个问题的最佳方法是什么?
r - 如何在 R 中的数据框中对不同日期的数据进行不同的标准化?
首先,感谢您抽出宝贵时间查看/回答我的问题。我会尽力解释这个问题(希望不会太难,我绝不是 R 专家)
假设我有以下数据(第一列是日期,第二列是“级别”,级别是每天 2:8 的重复序列。Var 3 只是一些统计数据..)
我的目标是通过执行以下操作来标准化数据:
本质上,对于每个唯一的日期,我想逐行获取 Var3 数据,然后用 var3 FOR THAT DAY* 的 5 级值减去它的对数 [例如,change[1] = log(.2340) - log(.4440) .. change[2] = log(.1240) - log(.444)... 但是对于 change[10] 它将是 log(.2400) - log(.5500).. 和很快..
我在 R 中遇到了麻烦,下面是我想出的代码(但结果似乎是 21 行 x 24 变量......但我真的只想要 21 行和 4 列,第 4 列是“改变”......我就是无法理解:/)
如果可以,请提供帮助,直觉上它似乎很容易做到,我不知道如何在 R 中做到这一点 [是的,我是相对较新的]..
非常感谢!
python - 数据标准化 vs 标准化 vs 强大的缩放器
我正在研究数据预处理,并想实际比较数据标准化与规范化与鲁棒缩放器的优势。
理论上,指导方针是:
好处:
- 标准化:对特征进行缩放,使得分布以 0 为中心,标准差为 1。
- 标准化:缩小范围,使范围现在介于 0 和 1 之间(如果有负值,则为 -1 到 1)。
- Robust Scaler:类似于标准化,但它使用四分位数范围,因此它对异常值具有鲁棒性。
缺点:
- 标准化:如果数据不是正态分布(即没有高斯分布),则不好。
- 标准化:受到异常值(即极值)的严重影响。
- Robust Scaler:不考虑中位数,只关注大容量数据所在的部分。
我创建了20 个随机数字输入并尝试了上述方法(红色数字代表异常值):
我注意到 -实际上- 规范化受到异常值的负面影响,并且新值之间的变化比例变得很小(所有值几乎相同 -6 位后小数点0.000000x
- )即使原始输入之间存在明显差异!
我的问题是:
- 我是否正确地说标准化也会受到极端值的负面影响?如果不是,为什么根据提供的结果?
- 我真的看不到Robust Scaler如何改进数据,因为我在结果数据集中仍然有极值?任何简单的完整解释?
python - 按组标准化变量 - 为什么平均值总是为零?
我有以下数据:
如果我标准化(即 Z 分数)score
变量,我会得到以下值。新z
列的平均值基本上为 0,SD 为 1,这两者都是标准化变量的预期值:
但是,我真正感兴趣的是根据组成员身份计算 Z 分数 ( sound
)。例如,如果分数来自声音 A,则仅使用声音 A 值的平均值和 SD 将该值转换为 Z 分数。同样,声音 BZ 分数将仅使用声音 B 的平均值和 SD。与常规 Z 分数计算相比,这显然会产生不同的值:
我的问题是:为什么基于组的标准化值 ( zg
) 的平均值也基本等于 0?这是预期的行为还是我的计算中有错误?
z
分数是有道理的,因为在变量内进行标准化基本上会将平均值强制为 0。但是这些值zg
是使用每个声音组的不同平均值和 SD 计算的,所以我不确定为什么该新变量的平均值也被设置为 0 .
我可以看到这种情况发生的唯一情况是,如果值的总和 > 0 等于值的总和 < 0,当平均时会抵消为 0。这发生在常规的 Z 分数计算中,但我很惊讶这像这样跨多个组进行操作时也会发生...
r - R中的标准化平均差
我有一个如下数据框:
我进行了多项回归并得到属于每个组的概率如下:
然后我为每个区域创建了一个权重。权重是“属于第一组的概率除以属于该区域所在的当前组的概率”。然后将权重乘以 mid_pop。
现在我想为组做一个标准化的平均差,看看加权前后 mid_pop 的平均值之间的差异。结果将是这样的:
任何人都可以帮助我们做到这一点?提前致谢。
naivebayes - 标准化如何影响 Naive Bays 分类器
谁能解释数据标准化如何提高高斯朴素贝叶斯分类器的性能?我标准化了我使用的数据以及它如何提高准确性。据我所知,它不应该,因为 GNB 使用 MAP 规则对标签进行分类。有谁知道它如何影响分类器?
format - 是否有标准化的消息格式?
有几种不同的消息传递应用程序和服务可用,例如:Slack、HipChat、IRC、Zoom Chat 等...
是否使用(或可用)标准化(或通用)消息格式来表示这些消息以简化开发人员集成,类似于日期时间格式的 ISO8601?