问题标签 [standardization]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c - 为什么 C99 标准的作者不指定浮点类型大小的标准?
我注意到在 Windows 和 Linux x86 上,float 是 4 字节类型,double 是 8,但 long double 在 x86 和 x86_64 上分别是 12 和 16。C99 应该以特定的整体尺寸打破这些障碍。
最初的技术限制似乎是由于 x86 处理器无法处理超过 80 位的浮点运算(加上 2 个字节来四舍五入),但为什么与 int 类型相比标准不一致?为什么他们不去至少 80 位标准化?
python - StandardScaler 给出非均匀标准偏差
我的问题设置如下:Python 3.7、Pandas 版本 1.0.3 和 sklearn 版本 0.22.1。我按照惯例应用一个StandardScaler(到浮点矩阵的每一列)。但是,我得到的列没有标准偏差 = 1,而它们的平均值是(大约)0。
我不确定这里出了什么问题,我检查了是否scaler
混淆并标准化了行,但似乎并非如此。
所有列都有标准偏差1.1180...
,而不是 1。
编辑:
我已经意识到,当我row_size
在上面增加时,例如从 5 到 10 和 100,列的标准偏差接近 1。所以这可能与方差估计器的偏差随着 n 增加而变小有关(?)。然而,我可以通过手动实现获得单位方差没有意义,(col[i]- col[i].mean() )/ col[i].std()
但 StandardScaler 却很挣扎......
python-3.x - python中的sklearn如何计算.scale_?(它到底是什么算法?)
请假设我们有一个这样的数组:
我们通过以下代码对其进行.scale_
缩放:sklearn
结果显示:
你知道它是如何计算的吗?如果你知道,请写出它的公式,它是如何计算的?我想这.scale_
显示了Interquartile range (IQR)
,但是当我手动计算它时IQR
:
另外,我认为array([0.81649658, 0.81649658, 1.24721913])
是一种正常类型的array([2, 2, 3])
,但我不知道它是如何标准化的。请帮我找到它。
python - Python:“StandardScaler”对象没有属性“_validate_data”
我最近更新了我的 sklearn。但是,自从升级以来,我收到错误“'StandardScaler' 对象没有属性'_validate_data'”。以下是代码片段:
python - 仅标准化数字列
我有 2 个函数来标准化我的数据,例如:
一个用于标准化训练,另一个用于测试。我的数据框中有一些我不想标准化的虚拟变量。现在我需要修改这些函数以不触及 0-1 的虚拟变量。我怎样才能做到这一点?
此外,在线性回归中,我有一个问题,即我的虚拟变量的系数太大,这会在预测中产生毫无意义的点。你对此有什么想法吗?
c++ - 新标准版本的 C++ 中是否有过无声的行为变化?
(我正在寻找一两个例子来证明这一点,而不是列表。)
C++ 标准的变化(例如,从 98 到 11、11 到 14 等)是否曾经发生过这样的情况:无声地改变了现有的、格式良好的、定义行为的用户代码的行为?即使用较新的标准版本编译时没有警告或错误?
笔记:
- 我问的是标准规定的行为,而不是实现者/编译器作者的选择。
- 代码越不做作越好(作为这个问题的答案)。
- 我不是指带有版本检测的代码,例如
#if __cplusplus >= 201103L
. - 涉及内存模型的答案很好。
r - 如何规范化 R 中的数据
这是我的数据:
假设我想通过对其他变量执行加法来创建一个新变量。但是,由于变量没有可比的比例,我需要重新调整它们。变量的分布不是正态的,标准化过程也应该对异常值具有鲁棒性。那么标准化数据的最佳方法是什么,以便我可以对变量求和以为我的数据创建一个新参数?
python - Sklearn.pipeline 产生不正确的结果
我正在尝试使用 StandardScaler() 和 LogisticRegression() 构建管道。当我使用和不使用管道进行编码时,我会得到不同的结果。这是我没有管道的代码:
我的管道代码:
这是我的结果:
在尝试调试问题时,数据似乎正在标准化。但是使用管道的结果与在我的原始 X_train 数据上训练模型的结果相匹配(不应用 StandardScaler())。
在管道的建设中我缺少什么吗?非常感谢!
regex - 正则表达式问题:医学术语的标准化
我需要将单词检测为“bot/hersen/levermetastase”并将它们转换为“botmetastase、hersenmetastase、levermetastase”。但也将'lever/botmetastase'变成'levermetastase,botmetastase'。
所以我需要确保“单词/单词/单词转移”在数字上尽可能多变。
这是我的解决方案,但它不起作用。
过滤器:
过滤器:
vector - 如何在列子集上实现 PySpark StandardScaler?
我想在我的数据框中的 10 列中的 6 列上使用 pyspark StandardScaler。这将是管道的一部分。
inputCol 参数似乎需要一个向量,我可以在对所有特征使用 VectorAssembler 后将其传入,但这会缩放所有 10 个特征。我不想缩放其他 4 个特征,因为它们是二进制的,我想要它们的非标准化系数。
我是否应该在 6 个特征上使用矢量汇编器,缩放它们,然后在这个缩放的特征向量和剩余的 4 个特征上再次使用矢量汇编器?我最终会在向量中得到一个向量,但我不确定这是否可行。
这样做的正确方法是什么?一个例子值得赞赏。