“standardized”的相关标签问题

0 投票

1 回答

104 浏览

r - 标准化 Pearson 相关系数 0-1

在我的数据中，我有一个向量，它是我的观察结果之间的相关性度量，从 -1 到 1。由于实质性的理论原因，我想将我的相关性度量从 0 限制到 1。因此，-1 的相关性应该变为 0 并且 1 的相关性应该保持为 1。当然，绝对值或平方不会完成这项工作，因为 -1 的负相关会变为 1，这不是我想要的。

你知道我该怎么做吗？这是一个类似于我自己的数据集。

r correlation standardized

2018-12-07T16:04:41.387

0 投票

1 回答

124 浏览

r - 使用 R 减少序列分析中的时间范围

我有一个在很长一段时间内发生的序列。我尝试了 8 种不同的算法来对我的序列进行分类（OM、CHi2、...）。时间从 1 到 123。我有 110 个个人和 8 个事件。

我的结果并不像预期的那样。首先，它非常难以阅读。其次，一个类别包含太多的代表序列（group3）。第三，每组的序列数量确实不平衡。

这可能是因为我的时间变量的范围为 123。我搜索了时间范围过长存在问题的文章。我在 Sabherwal 和 Robey（1993 年）以及 Shi 和 Prescott（2011 年）中读到，您可以通过将所需的转换数量除以较长序列的长度来标准化“每个序列”。我怎么能在 R 中做到这一点？

请在下面找到我的数据描述：

提前致谢，

安东宁

r range sequence traminer standardized

2019-01-17T12:02:46.570

0 投票

1 回答

845 浏览

python - 在标准化之前/之后训练/测试我的多项式回归时的不同 RMSE

我正在构建一个最终将被其他用户使用的回归模型。该模型通过使用多个大气变量（如气温、湿度、太阳辐射、风等）来预测花温。

经过大量的涂鸦，我注意到通过 SKlearn 进行的二次多项式回归为我的训练和测试数据提供了良好的 RMSE。但是，由于存在超过 36 个系数共线性，并且根据对此帖子的评论：https ://stats.stackexchange.com/questions/29781/when-conducting-multiple-regression-when-should-you-center-your -predictor-varia，共线性会干扰 beta，所以我得到的 RMSE 是不合适的。

我听说也许我应该标准化以消除共线性或使用正交分解，但我不知道哪个会更好。在任何情况下，我都尝试标准化我的 x 变量，当我为训练和测试数据计算 RMSE 时，我得到的训练数据的 RMSE 相同，但测试数据的 RMSE 不同。

这是代码：

为什么我为标准化测试数据获得的 RMSE 与非标准化测试数据如此不同？也许我这样做的方式一点都不好？请让我知道我是否应该将文件附加到帖子中。

感谢您的时间！

python regression polynomials multivariate-testing standardized

2019-01-27T20:32:34.013

0 投票

1 回答

764 浏览

sas - SAS proc stdize method=range 如何工作？

PROC STDIZE METHOD = RANGE 如何工作？

我认为它会像这样工作：

但是，范围是 [1,100] 并且永远不会有 0，即当您从分子上的自身减去最小观测值时。

我尝试阅读 SAS 文档并在 Excel 工作簿中运行一些试验

预期范围 [0,100]，找到范围 [1,100]

sas normalization standardized sas-studio

2019-01-29T17:07:49.503

0 投票

1 回答

410 浏览

r - R中多个变量的相关度量

我正在尝试在 R 中创建一个函数，以使用此图像底部的方程找到 n 维非零方差变量的相关系数：单击此处

到目前为止，我只制作了我正在使用的示例数据集：

但是我无法将方程合并到我的代码的其余部分中。我知道如何制作相关矩阵：

但我不知道这是否应该是我开始的地方，或者我是否可以使用原始数据集。我想等式背后的数学是阻碍我前进的原因。例如：如何使用“det()”函数？是否有获取变量标准化向量的功能？

提前感谢您的任何帮助！

r correlation determinants standardized

2019-02-11T18:32:28.713

0 投票

1 回答

252 浏览

r - 如何标准化 R 中的一列数据并获取贝尔曲线直方图以找出一个范围内的百分比？

我有一个数据集，其中一列包含从 300 到 400 的随机数。我正在尝试使用 R 找出该列在 320 到 350 之间的比例。据我了解，我需要标准化这些数据并创建一个首先是钟形曲线。我有平均值和标准差，但是当我做 (X - mean)/SD 并从该列获取直方图时，它仍然不是钟形曲线。

这是我试过的代码。

r probability-density standardized bell-curve

2019-04-13T22:12:32.443

0 投票

1 回答

1369 浏览

python - 为什么标准化后新值大于 1 和 -1？

我想将数据归一化为零均值和 1 个标准差但我的最终结果仍然具有大于 1 和 -1 的值，为什么？

python machine-learning standardized

2019-05-07T14:25:38.820

0 投票

2 回答

2038 浏览

python - 如何标准化与时间戳相关的分类变量

我有一个包含 8 个混合特征（6 个数字和 2 个分类）的数据集。由于数值具有不同的范围，我必须将数据集作为一个整体进行标准化，以便能够执行更远的操作，例如机器学习算法、降维（特征提取）。

我的原始数据集：

其中 v1 到 v6 是数值变量，它们的值在不同的范围内，如上所示。此外，v7 和 v8 是只有两个输出的分类变量（v7 {High, Low} 和 v8 {True, False}）。

我对分类变量（v7 和 v8）进行了标签编码，其中 High 和 True 编码为 1，LOW 和 False 编码为 0。

下图说明了标签编码后数据集的样子：

我的问题如下：从 v1 到 v6 的数值特征很容易标准化。但是，我不确定是否标准化分类观察，如果是，那么最好的方法是什么？

python pandas dataset categorical-data standardized

2019-05-24T05:23:19.873

0 投票

1 回答

148 浏览

r - 生成内部年龄和性别 z 分数

我有以下数据框，其中包含来自 1000 人的性数据、三个重复的身高测量值和每个测量值的年龄。

我可以在每次测量时生成 zscores，如下所示

我如何为每个性别和年份生成这些，例如 htzm3 如果性别 = 男性和年龄 >=3 和 <4，htzm4 如果性别 = 男性和年龄 >=4 和 <5 等。

r dplyr data-manipulation standardized

2019-06-24T14:52:33.070

0 投票

2 回答

215 浏览

python-3.x - 如何在 python 中规范化或标准化数据集的特定或选定特征

我有数据，数据框的名称是表，表包含 15 个特征，我只想规范化 3 个数字数据特征，这些特征的名称是“费率”、“成本”和“总成本”。请问，我该如何解决这个问题？

我试图通过使用 Table.loc[:,['rate',cost',total cost'] 过滤它们并传递给 column_trans 来提取所需的特征

从 sklearn.compose 导入 ColumnTransformer

从 sklearn.preprocessing 导入 StandarScaler

column_trans = 列转换器（

column_trans.fit_transform(X)

我希望得到归一化特征的 0 和 1 之间的值。

但我收到以下错误消息。

文件“”，第 5 行剩余部分='passthrough') ^ SyntaxError: invalid syntax

python-3.x pandas scikit-learn standardized

2019-06-26T16:02:22.440

问题标签 [standardized]

Reference