问题标签 [pearson]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 皮尔逊相关
我有一个数据框如下:
我想获得一个数据框,包括 a vs b、a vs c、a vs d、a vs e、b vs a、b vs c、b vs d、b vs e 等所有 pearson 系数(不包括自我比较,即 aa、bb 等)。
换句话说,我想更改以下数据框
对于这样的结果数据框
请指导有效的方法。
编辑
感谢 Michaelv2 的帮助。
根据建议的代码,我发现结果如下:
错误消息是“警告消息:在 cor(x[2:5], method = "pearson") 中:标准偏差为零”
在我看来,我可能滥用了代码,您能否进一步指导如何进一步解决这个问题?谢谢你。
statistics - 统计相关性:皮尔逊还是斯皮尔曼?
我在区间 [0,1] 中有 2 个系列的 45 个值。第一个系列是人工生成的标准,第二个是计算机生成的(完整系列在这里http://www.copypastecode.com/74844/)。第一个系列按递减排序。
现在我要评估的是第二个系列中保留顺序的程度,因为第一个系列是单调的。皮尔逊相关系数为 0.454763067,但我认为这种关系不是线性的,所以这个值很难解释。
一种自然的方法是使用Spearman 等级相关性,在本例中为 0.670556181。我注意到,对于随机值,虽然 Pearson 非常接近 0,但 Spearman 等级相关性上升到 0.5,因此 0.67 的值似乎非常低。
你会用什么来评估这两个系列之间的顺序相似性?
algorithm - 33字节的错误检测码,检测前32字节翻转的位
您能否建议一种错误检测方案,以使用不超过 8 位的附加数据来检测 33 字节消息的前 32 字节中的一个可能的位翻转?
皮尔逊散列可以成为一个解决方案吗?
mahout - Apache Mahout + Pearson 相关性忽略对每个项目具有相同偏好的用户
我将 Mahout 与 Pearson Correlation 算法结合使用,根据他们对多个项目的偏好来比较和查找相似用户。我遇到的问题是 Mahout 和/或 Pearson 忽略了为每个项目选择相同偏好的用户。有谁知道是否有办法将 Mahout 配置为不忽略为每个项目选择相同偏好值的人。
matlab - 在 Matlab 中不使用零元素的 Pearson 相关性
我在 Matlab 中有 2 个示例向量:
A = [5,3,3,0,4,1,5,0,2,5,5,0,5,3,4,0,1,4,4,0,4,2];
B = [1,0,0,0,1,0,4,0,0,0,0,4,4,0,1,0,0,0,0,0,0,0];
什么时候,我尝试使用手动方法计算皮尔逊相关性并使用 excel 进行计算,结果相同(0.667)
1 0,667 0,667 1
但是当我在 MatLab 中尝试使用简单的代码时:
它返回不同分数的结果(0,2139)。
1 0,2139 0,2139 1
也许它的发生是因为零分数(0)用于计算它。发生是因为缺失值将在 matlab 中被零(0)替换。
在 Pearson Correlation 中,仅使用 co-rated value 来计算它。(见粗体值)
A = [ 5 ,3,3,0, 4 ,1, 5 ,0,2,5,5,0, 5 ,3, 4 ,0,1,4,4,0,4,2]; B = [ 1 ,0,0,0, 1 ,0, 4 ,0,0,0,0,4, 4 ,0, 1 ,0,0,0,0,0,0,0];
或者它可以变得简单:
A = [ 5 , 4 , 5 , 5 , 4 ]; B = [ 1 , 1 , 4 , 4 , 1 ];
有谁知道,如何为此制作简单的代码?我在程序代码中尝试过:首先,使函数corated,average_corated,然后最后计算相似度。它花费了太多时间。
谢谢之前:)
r - R将名称转换为数字
我有一个包含捐赠和捐赠者姓名的数据框。
我正在尝试使用该pvclust
软件包进行一些聚类。不幸的是,该软件包似乎没有采用非数字数据。
我有两个问题。
1)是否有另一种包或方法可以做得更好?
2)有没有办法“规范化”捐赠者名单?即获取唯一捐助者姓名的列表,为每个人分配一个 ID 号,然后将 ID 号插入数据框中以代替角色名称。
r - R中的cor()行为在各个向量和data.frame之间有所不同
我正在尝试获取数据框中所有行相对于彼此的 Pearson 相关系数。有些值是空的(NA),这似乎是我在 2 个缺少值的向量上运行 cor() 时没有遇到的问题。这是 2 个向量的正确结果:
这是当它们是数据框的一部分时的结果:
为什么使用参数没有相同的效果?这是crictors1 数据框的样子;
machine-learning - 在 Mahout 中查找特征向量中的不同维度
如果我使用基于相似性的算法(例如 pearson 相关分数)来比较两个特征向量,并且我想知道那些在特征集中非常不同的维度/特征字段,那么要使用的算法是什么?我正在使用 Mahout,它是 Java 的机器学习库
r - 使用 R 和 ddply 的“超过 30 对时的相关性和意义”
我在这里找到了我的问题的部分解决方案:如何计算 R 中的相关性
除了cor
(计算 Pearsons r)之外,我还计算cor.test
(对于 p 值)。但是在“没有足够的有限观察”的情况下这会失败,所以当一些 ID 是单独的时,在我的情况下它们经常出现。
因此,只有当数据对超过 30 对时,我才需要计算 r,如果更少,我想要 NA。
第二个问题是冗长的输出cor.test
夸大了结果数据框——即使我唯一想要的就是 p 值。也就是说,如果 p 实际上是,我理解它是什么。是r的意义吗?
我只知道 t 检验,来计算 r 的显着性。
{t-test-value的公式:t = (r·(n-2)^0.5)/(1-r^2)^0.5)
-但t还不是意义,否则我会尝试将公式实现到ddply
语句中}
math - Pearson 在 Apache Mahout 中的系数背后的动机是什么
这个问题是关于 Apache Mahout 的推荐部分,它使用 Pearson 系数来测量用户之间的相似性。根据我的理解,这是皮尔逊系数如何衡量用户之间的相似性。
假设 2 个用户对 5 个项目 a、b、c、d 和 e 进行评分。假设他们的评级是 a1、b1、c1、d1、e1 和 a2、b2、c2、d2、e2。现在,皮尔逊系数给出了考虑点 (a1, a2)、(b1, b2)、(c1, c2)、(d1, d2) 和 (e1, e2) 的最小二乘直线拟合的估计值。我知道这样做的主要目的(基于我在其他地方的阅读)是您想要表示在给定当前用户评分的情况下能够预测其他用户对任何对象的评分的准确性。现在,如果这些点位于一条直线上,则意味着您可以根据当前用户的评分预测其他人的评分。因此,系数将为 1。另一方面,如果点不在直线上,则最小二乘拟合以 -1 到 1 的比例表示,
现在,我的问题是为什么只有直线?例如,为什么我们不能确定它们是否位于抛物线上,然后相应地计算类似的系数(关于抛物线的拟合程度)?为什么我们只检查直线拟合?
谢谢阿布舍克 S