“pearson”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

281 浏览

sas - SAS 中的皮尔逊相关性

我有一组观察数据（乔、达纳、马克……）以及他们各自对电影的评分（蝙蝠侠 - 3 星，死侍 - 4 星）。当我在 SAS 中使用 proc Corr 时，只给出电影而不是观察之间的相关性。如何找到SAS中观察值之间的相关性？

2016-11-03T23:59:18.613

0 投票

2 回答

540 浏览

r - 如何在R中循环列表子集？

我有一个包含 9 个列表的列表，请参见下面的代码，其中我只想循环三个列表p，r并t分别针对 Pearson、Spearson 和 Kendall 相关，而不是所有 9 个列表。当前的伪代码如下，测试函数所在的地方corrplot(M.cor, ...)，完整伪代码见下文

带有mtcars测试数据的代码

输出关于 9 个列表的列表

我关于循环所有三个相关性与测试函数的伪代码corrplot，但它不起作用，因为它遍历了所有 9 个列表

预期输出：仅循环和列表t，以便它们可以传递给测试函数prcorrplot

R：3.3.1
操作系统：Debian 8.5

r list statistics correlation pearson

2016-11-10T15:10:11.497

0 投票

1 回答

79 浏览

r - 没有得到预期的相关值 - R cor()

在使用 R's 找到相关性时，我得到了除对角线条目之外的所有 NA 值cor()。我成对地删除了 NA。当我明确删除 NA 时，我得到了想要的结果。我误解了这些论点吗？

我试过了

也试过这个

仍然得到相同的结果。

只有当我这样做

我得到所有的1。我希望得到全 1，因为我正在寻找变量与其自身的相关性。

（注：变量有方差，NA不是因为没有方差）

r correlation pearson

2016-11-16T10:12:32.713

0 投票

1 回答

423 浏览

r - 两个定量变量与 NA 和组之间的相关性

我有这个数据集：

如您所见，基因表达数据有多个定量变量，每个基因在处理前和处理后测量了两次，其中一些变量存在一些缺失值。

每行对应一个人，他们也分为两组（0 = 控制，1 = 真正治疗）。

我想进行相关性（Spearman 或 Pearson 取决于正态性，但按组，并获得相关值和 p 值显着性，避免 NA。

可能吗？

我知道如何实现cor.test()函数来比较两个变量，但是我在这个函数中找不到任何变量来考虑组。

我还发现plyr和data.table库按组这样做，但它们只返回没有 p 值的相关值，而且我无法用 NA 来表示变量。

建议？

r correlation pearson

2017-01-17T11:09:26.603

0 投票

0 回答

78 浏览

python - 分组皮尔逊相关

我有一个大数据框（形状 100 000*192）。我已经计算了每个属性的皮尔逊系数。现在我正在寻找一种方法来计算每组皮尔逊相关性。我的意思是，现在我有

我想计算

例如

这里 A 列和 C 列似乎没有很强的相关性，A 和 B 或 B 和 C 也没有，但是当你取 A 和 B 时，你与 C 有相关性（如果 A = B 那么 C =1 否则 C = 0)。我希望它有助于理解。

是否有任何函数或库已经这样做了，或者我将不得不在我的数据帧上使用df.corr()函数编写大量迭代代码pandas？

python pandas correlation pearson

2017-02-23T06:34:52.000

0 投票

1 回答

6557 浏览

python - 是否可以在 sklearn 中使用 pearson 相关指标？

我有一个矩阵 X，我正在尝试将 KNN 与 pearson 相关度量一起使用。是否可以使用 pearson 相关性作为 sklearn 指标？我尝试过这样的事情：

但是，这不起作用，因为我收到以下错误：

pearson_affinity() takes 1 positional argument but 2 were given

我假设 pearson_calc 函数是错误的。也许它需要 a,b 参数而不是矩阵。

python numpy scikit-learn correlation pearson

2017-03-16T02:27:12.793

0 投票

1 回答

638 浏览

java - 不同货币的皮尔逊相关系数不同？

我对皮尔逊相关系数的这个问题感到非常沮丧。我有一个程序可以在指定的时间段内每天输出两个股票代码的股票值，我还绘制了这些值的图表。您可以选择美元、欧元和瑞典克朗进行输出。但是，根据我选择的货币，我的皮尔逊相关系数似乎有所不同？我不知道这是正确的还是某处有错误？进行计算的实际功能似乎还可以，所以我不明白...

根据货币，系数应该不同还是应该相同？股票的欧元和瑞典克朗货币价值是通过将股票的美元价值乘以同一天欧元或瑞典克朗的收盘价来计算的。

该方法计算系数：

股票收盘价是通过 .csv 文件从 yahoo Finance 获取的，这些循环获取这些值并将它们添加到数组列表中。

和。buf3 是读取汇率 csv 的字符串缓冲区

ticker1List 和 ticker2List 是后来发送到上述方法进行计算的列表。

输出样本：

美元

ticker1List = {542, 535, 539, 547, 559, 563, 575, 579, 578, 581, 573, 574, 560, 556, 561, 553, 562, 558, 566, 564, 565, 565, 578, 567 , 564, 558, 561, 555, 549, 541, 544, 545, 549, 548, 549, 549, 540, 541, 544, 533, 545, 543, 549, 557, 574, 566, 564, 561, 549 , 551, 553, 543, 535, 542, 549, 546, 539, 539, 549, 546, 547, 549, 553, 557, 555, 547, 554, 554, 545, 549, 554, 555, 552, 550 , 543, 542, 553, 550, 547, 543, 545, 547, 556, 558, 560, 563, 559, 558, 553, 541, 540, 543, 547, 546, 550, 542, 545, 556, 572 , 584, 584, 602, 700, 693, 695, 695, 675, 655, 658, 660, 661}ticker2List = {44, 44, 44, 44, 44, 44, 44, 43, 43, 43, 42, 43, 42, 42, 41, 41, 42, 42, 43, 42, 43, 43, 43, 41, 41, 41, 41, 41, 41, 40, 42, 42, 41, 41, 42, 42, 42, 42, 42, 42, 43, 43, 43, 43, 48, 48, 49, 49, 49, 49, 48, 48, 46, 47, 48, 47, 47, 48, 49, 48, 48, 48, 48, 47, 47, 47, 48, 47, 47,47, 47, 47, 46, 46, 46, 46, 47, 46, 46, 45, 46, 46, 47, 46, 46, 46, 46, 46, 45, 44, 44, 44, 44, 44, 44, 44, 45, 45, 46, 46, 46, 47, 47, 47, 47, 46, 46, 46, 45, 45, 46 }

皮尔逊：0.1439484634863799

瑞典克朗

Currency rate = {8.55523, 8.509, 8.5914, 8.564, 8.5947, 8.5379, 8.6162, 8.6554, 8.54502, 8.5075, 8.5015, 8.4947, 8.4503, 8.4634, 8.46479, 8.51185, 8.4701, 8.51984, 8.38558, 8.2967, 8.23152, 8.4052, 8.24647, 8.23443, 8.253, 8.13911, 8.11373, 8.12167, 8.09872, 8.17692, 8.1593, 8.20512, 8.2148, 8.26875, 8.28135, 8.29895, 8.3914, 8.2918, 8.31362, 8.4409, 8.58413, 8.548, 8.4556, 8.51005, 8.4676, 8.4153, 8.33381, 8.3411, 8.3424, 8.22841, 8.19809, 8.24101, 8.23992, 8.3265, 8.30831, 8.25121, 8.2754, 8.2294, 8.3507, 8.36978, 8.40981, 8.3328, 8.34131, 8.5058, 8.60651, 8.6354, 8.6344, 8.72934, 8.6574, 8.69648, 8.63365, 8.58971, 8.714, 8.7647, 8.81522, 8.81353, 8.75727, 8.6755, 8.6743, 8.5591, 8.52942, 8.65399, 8.6243, 8.5889, 8.586, 8.58851, 8.493, 8.51087, 8.50157, 8.61801, 8.6706, 8.6013, 8.68419, 8.6546, 8.7287, 8.5913, 8.62343, 8.55167, 8.4879、8.4632、8。33779、8.32539、8.2671、8.3381、8.36064、8.3922、8.28541、8.40471、8.4139、8.3832、8.42055}

给

ticker1List = {4562, 4485, 4532, 4600, 4634, 4722, 4808, 4826, 4781, 4841, 4777, 4859, 4752, 4752, 4839, 4751, 4902, 4826, 4902, 4826, 4902, 4826, 4917, 48748, 918, 48748, 28, 44 , 4787, 4789, 4818, 4764, 4739, 4684, 4640, 4664, 4761, 4754, 4804, 4835, 4758, 4742, 4736, 4576, 4701, 4721, 4754, 4866, 4953, 4889, 4857, 4775, 4577 ，4593，4649，4545，4468，4461，4543，4543，45476，4476，4492，4525，4525，4525，4482，4520，4520，4609，4644，4644，4644，4621，4605 ，4561，4499，4576，4548，4497，4455，4446，4470，4470，4528，4528，4541，4585，4610，4594，4594，4561，4561，4549，4549 , 4962, 4965, 5120, 5978, 5997, 5991, 5935, 5799, 5607, 5655, 5613, 5659}

ticker2List = {369, 370, 371, 370, 365, 368, 367, 361, 356, 359, 353, 363, 357, 359, 354, 356, 363, 361, 369, 364, 372, 369, 365, 353 , 350, 352, 352, 349, 351, 349, 354, 355, 359, 360, 365, 368, 367, 370, 367, 358, 370, 371, 372, 378, 413, 415, 423, 417, 406 , 405, 406, 398, 386, 384, 395, 391, 393, 397, 401, 398, 394, 392, 397, 396, 391, 392, 403, 404, 396, 404, 403, 395, 385, 383 , 384, 379, 386, 384, 378, 373, 374, 376, 378, 374, 375, 374, 377, 376, 373, 373, 363, 369, 372, 378, 375, 377, 377, 378, 385 , 388, 389, 397, 398, 406, 407, 389, 396, 393, 390, 386, 396}

皮尔逊：0.20617640237659246

java correlation pearson pearson-correlation

2017-03-21T17:47:43.993

0 投票

1 回答

966 浏览

r - R - 如何限制 hmisc rcorr 的输出？

我有两个数据框 motion_on 有 60 个观察值，motivation_off 有 146 个观察值，每个包含 21 个变量和 1 个 ID 列，位于第一列。

现在我想知道变量如何相互关联，所以我使用：

和

（子集是为了去掉ID列）

现在我想计算在线变量和离线变量之间的相关性，所以我尝试了：

现在我得到了我想要的，但此外它还显示了我之前计算过的motivation_on 和motivation_off 中vars 的所有相关性。这使得输出非常长。如何获得 rcorr 输出以专门用于 on_off 的相关性？

编辑澄清：尝试以下操作：

我想要的是一个相关表：mpg、cyl、disp 作为行，hp、drat、wt 作为列，而不是完整的输出。我目前的工作：

r correlation hmisc pearson

2017-04-06T17:42:10.490

0 投票

0 回答

207 浏览

python - python按列读取文件而不加载到内存中？

我有一个 csv 文件，其中包含大约 400 列 +100.000 行。我正在尝试在 HDinsight Hadoop 集群中运行 MapReduce 作业。我的 MapReduce 的逻辑是计算 Peason 的相关矩阵。

map 操作生成每个可能的值对以及每个键。

示例： 将此作为输入：

映射器输出将是：

正如您可以得出的结论，映射器输出的大小更多地取决于列数，因此取决于排序阶段的复杂性。我认为为什么我的 mapreduce 工作失败了。

我曾经在以前的映射器脚本中输出完整的列表，如下所示：

但这需要完整读取文件才能压缩它，然后压缩每对列。在这种情况下，如果文件足够大，我会耗尽内存。

我想阅读列而不是行，并继续使用“yield”来优化映射器和排序中的内存使用。

有没有办法逐列读取文件（给定某个分隔符）而不将其完全加载到内存中？

python csv hadoop azure-hdinsight pearson

2017-04-07T10:55:20.057

0 投票

1 回答

11730 浏览

r - R 相关性检验错误。'x' 必须是数值向量

我知道这个问题以前曾被问过，但不是在我现在问的上下文中。

我有一个看起来像这样的数据框

我的简单代码看起来像这样

当我运行代码时，我得到了错误

非常欢迎您的意见和建议

r correlation pearson

2017-04-19T13:26:32.717

问题标签 [pearson]

Reference