问题标签 [standardized]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
104 浏览

r - 标准化 Pearson 相关系数 0-1

在我的数据中,我有一个向量,它是我的观察结果之间的相关性度量,从 -1 到 1。由于实质性的理论原因,我想将我的相关性度量从 0 限制到 1。因此,-1 的相关性应该变为 0 并且 1 的相关性应该保持为 1。当然,绝对值或平方不会完成这项工作,因为 -1 的负相关会变为 1,这不是我想要的。

你知道我该怎么做吗?这是一个类似于我自己的数据集。

0 投票
1 回答
124 浏览

r - 使用 R 减少序列分析中的时间范围

我有一个在很长一段时间内发生的序列。我尝试了 8 种不同的算法来对我的序列进行分类(OM、CHi2、...)。时间从 1 到 123。我有 110 个个人和 8 个事件。

我的结果并不像预期的那样。首先,它非常难以阅读。其次,一个类别包含太多的代表序列(group3)。第三,每组的序列数量确实不平衡。

这可能是因为我的时间变量的范围为 123。我搜索了时间范围过长存在问题的文章。我在 Sabherwal 和 Robey(1993 年)以及 Shi 和 Prescott(2011 年)中读到,您可以通过将所需的转换数量除以较长序列的长度来标准化“每个序列”。我怎么能在 R 中做到这一点?

请在下面找到我的数据描述:

提前致谢,

安东宁

0 投票
1 回答
845 浏览

python - 在标准化之前/之后训练/测试我的多项式回归时的不同 RMSE

我正在构建一个最终将被其他用户使用的回归模型。该模型通过使用多个大气变量(如气温、湿度、太阳辐射、风等)来预测花温。

经过大量的涂鸦,我注意到通过 SKlearn 进行的二次多项式回归为我的训练和测试数据提供了良好的 RMSE。但是,由于存在超过 36 个系数共线性,并且根据对此帖子的评论:https ://stats.stackexchange.com/questions/29781/when-conducting-multiple-regression-when-should-you-center-your -predictor-varia,共线性会干扰 beta,所以我得到的 RMSE 是不合适的。

我听说也许我应该标准化以消除共线性或使用正交分解,但我不知道哪个会更好。在任何情况下,我都尝试标准化我的 x 变量,当我为训练和测试数据计算 RMSE 时,我得到的训练数据的 RMSE 相同,但测试数据的 RMSE 不同。

这是代码:

为什么我为标准化测试数据获得的 RMSE 与非标准化测试数据如此不同?也许我这样做的方式一点都不好?请让我知道我是否应该将文件附加到帖子中。

感谢您的时间!

0 投票
1 回答
764 浏览

sas - SAS proc stdize method=range 如何工作?

PROC STDIZE METHOD = RANGE 如何工作?

我认为它会像这样工作:

但是,范围是 [1,100] 并且永远不会有 0,即当您从分子上的自身减去最小观测值时。

我尝试阅读 SAS 文档并在 Excel 工作簿中运行一些试验

预期范围 [0,100],找到范围 [1,100]

0 投票
1 回答
410 浏览

r - R中多个变量的相关度量

我正在尝试在 R 中创建一个函数,以使用此图像底部的方程找到 n 维非零方差变量的相关系数:单击此处

到目前为止,我只制作了我正在使用的示例数据集:

但是我无法将方程合并到我的代码的其余部分中。我知道如何制作相关矩阵:

但我不知道这是否应该是我开始的地方,或者我是否可以使用原始数据集。我想等式背后的数学是阻碍我前进的原因。例如:如何使用“det()”函数?是否有获取变量标准化向量的功能?

提前感谢您的任何帮助!

0 投票
1 回答
252 浏览

r - 如何标准化 R 中的一列数据并获取贝尔曲线直方图以找出一个范围内的百分比?

我有一个数据集,其中一列包含从 300 到 400 的随机数。我正在尝试使用 R 找出该列在 320 到 350 之间的比例。据我了解,我需要标准化这些数据并创建一个首先是钟形曲线。我有平均值和标准差,但是当我做 (X - mean)/SD 并从该列获取直方图时,它仍然不是钟形曲线。

这是我试过的代码。

0 投票
1 回答
1369 浏览

python - 为什么标准化后新值大于 1 和 -1?

我想将数据归一化为零均值和 1 个标准差但我的最终结果仍然具有大于 1 和 -1 的值,为什么?

0 投票
2 回答
2038 浏览

python - 如何标准化与时间戳相关的分类变量

我有一个包含 8 个混合特征(6 个数字和 2 个分类)的数据集。由于数值具有不同的范围,我必须将数据集作为一个整体进行标准化,以便能够执行更远的操作,例如机器学习算法、降维(特征提取)。

我的原始数据集:

其中 v1 到 v6 是数值变量,它们的值在不同的范围内,如上所示。此外,v7 和 v8 是只有两个输出的分类变量(v7 {High, Low} 和 v8 {True, False})。

我对分类变量(v7 和 v8)进行了标签编码,其中 High 和 True 编码为 1,LOW 和 False 编码为 0。

下图说明了标签编码后数据集的样子:

我的问题如下:从 v1 到 v6 的数值特征很容易标准化。但是,我不确定是否标准化分类观察,如果是,那么最好的方法是什么?

0 投票
1 回答
148 浏览

r - 生成内部年龄和性别 z 分数

我有以下数据框,其中包含来自 1000 人的性数据、三个重复的身高测量值和每个测量值的年龄。

我可以在每次测量时生成 zscores,如下所示

我如何为每个性别和年份生成这些,例如 htzm3 如果性别 = 男性和年龄 >=3 和 <4,htzm4 如果性别 = 男性和年龄 >=4 和 <5 等。

0 投票
2 回答
215 浏览

python-3.x - 如何在 python 中规范化或标准化数据集的特定或选定特征

我有数据,数据框的名称是表,表包含 15 个特征,我只想规范化 3 个数字数据特征,这些特征的名称是“费率”、“成本”和“总成本”。请问,我该如何解决这个问题?

我试图通过使用 Table.loc[:,['rate',cost',total cost'] 过滤它们并传递给 column_trans 来提取所需的特征

从 sklearn.compose 导入 ColumnTransformer

从 sklearn.preprocessing 导入 StandarScaler

column_trans = 列转换器(

column_trans.fit_transform(X)

我希望得到归一化特征的 0 和 1 之间的值。

但我收到以下错误消息。

文件“”,第 5 行剩余部分='passthrough') ^ SyntaxError: invalid syntax