问题标签 [standardization]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
268 浏览

c - 为什么 C99 标准的作者不指定浮点类型大小的标准?

我注意到在 Windows 和 Linux x86 上,float 是 4 字节类型,double 是 8,但 long double 在 x86 和 x86_64 上分别是 12 和 16。C99 应该以特定的整体尺寸打破这些障碍。

最初的技术限制似乎是由于 x86 处理器无法处理超过 80 位的浮点运算(加上 2 个字节来四舍五入),但为什么与 int 类型相比标准不一致?为什么他们不去至少 80 位标准化?

0 投票
1 回答
352 浏览

python - StandardScaler 给出非均匀标准偏差

我的问题设置如下:Python 3.7、Pandas 版本 1.0.3 和 sklearn 版本 0.22.1。我按照惯例应用一个StandardScaler(到浮点矩阵的每一列)。但是,我得到的列没有标准偏差 = 1,而它们的平均值是(大约)0。

我不确定这里出了什么问题,我检查了是否scaler混淆并标准化了行,但似乎并非如此。

所有列都有标准偏差1.1180...,而不是 1。

编辑: 我已经意识到,当我row_size在上面增加时,例如从 5 到 10 和 100,列的标准偏差接近 1。所以这可能与方差估计器的偏差随着 n 增加而变小有关(?)。然而,我可以通过手动实现获得单位方差没有意义,(col[i]- col[i].mean() )/ col[i].std()但 StandardScaler 却很挣扎......

0 投票
1 回答
524 浏览

python-3.x - python中的sklearn如何计算.scale_?(它到底是什么算法?)

请假设我们有一个这样的数组:

我们通过以下代码对其进行.scale_缩放:sklearn

结果显示:

你知道它是如何计算的吗?如果你知道,请写出它的公式,它是如何计算的?我想这.scale_显示了Interquartile range (IQR),但是当我手动计算它时IQR

另外,我认为array([0.81649658, 0.81649658, 1.24721913])是一种正常类型的array([2, 2, 3]),但我不知道它是如何标准化的。请帮我找到它。

0 投票
1 回答
3958 浏览

python - Python:“StandardScaler”对象没有属性“_validate_data”

我最近更新了我的 sklearn。但是,自从升级以来,我收到错误“'StandardScaler' 对象没有属性'_validate_data'”。以下是代码片段:

0 投票
1 回答
33 浏览

python - 仅标准化数字列

我有 2 个函数来标准化我的数据,例如:

一个用于标准化训练,另一个用于测试。我的数据框中有一些我不想标准化的虚拟变量。现在我需要修改这些函数以不触及 0-1 的虚拟变量。我怎样才能做到这一点?

此外,在线性回归中,我有一个问题,即我的虚拟变量的系数太大,这会在预测中产生毫无意义的点。你对此有什么想法吗?

0 投票
9 回答
6133 浏览

c++ - 新标准版本的 C++ 中是否有过无声的行为变化?

(我正在寻找一两个例子来证明这一点,而不是列表。)

C++ 标准的变化(例如,从 98 到 11、11 到 14 等)是否曾经发生过这样的情况:无声地改变了现有的、格式良好的、定义行为的用户代码的行为?即使用较新的标准版本编译时没有警告或错误?

笔记:

  • 我问的是标准规定的行为,而不是实现者/编译器作者的选择。
  • 代码越不做作越好(作为这个问题的答案)。
  • 我不是指带有版本检测的代码,例如#if __cplusplus >= 201103L.
  • 涉及内存模型的答案很好。
0 投票
1 回答
428 浏览

r - 如何规范化 R 中的数据

这是我的数据:

假设我想通过对其他变量执行加法来创建一个新变量。但是,由于变量没有可比的比例,我需要重新调整它们。变量的分布不是正态的,标准化过程也应该对异常值具有鲁棒性。那么标准化数据的最佳方法是什么,以便我可以对变量求和以为我的数据创建一个新参数?

0 投票
1 回答
184 浏览

python - Sklearn.pipeline 产生不正确的结果

我正在尝试使用 StandardScaler() 和 LogisticRegression() 构建管道。当我使用和不使用管道进行编码时,我会得到不同的结果。这是我没有管道的代码:

我的管道代码:

这是我的结果:

在尝试调试问题时,数据似乎正在标准化。但是使用管道的结果与在我的原始 X_train 数据上训练模型的结果相匹配(不应用 StandardScaler())。

在管道的建设中我缺少什么吗?非常感谢!

0 投票
1 回答
52 浏览

regex - 正则表达式问题:医学术语的标准化

我需要将单词检测为“bot/hersen/levermetastase”并将它们转换为“botmetastase、hersenmetastase、levermetastase”。但也将'lever/botmetastase'变成'levermetastase,botmetastase'。

所以我需要确保“单词/单词/单词转移”在数字上尽可能多变。

这是我的解决方案,但它不起作用。

过滤器

过滤器

0 投票
1 回答
977 浏览

vector - 如何在列子集上实现 PySpark StandardScaler?

我想在我的数据框中的 10 列中的 6 列上使用 pyspark StandardScaler。这将是管道的一部分。

inputCol 参数似乎需要一个向量,我可以在对所有特征使用 VectorAssembler 后将其传入,但这会缩放所有 10 个特征。我不想缩放其他 4 个特征,因为它们是二进制的,我想要它们的非标准化系数。

我是否应该在 6 个特征上使用矢量汇编器,缩放它们,然后在这个缩放的特征向量和剩余的 4 个特征上再次使用矢量汇编器?我最终会在向量中得到一个向量,但我不确定这是否可行。

这样做的正确方法是什么?一个例子值得赞赏。