问题标签 [pearson]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
3108 浏览

r - R:使用频率表进行逻辑回归,找不到正确的 Pearson Chi Square 统计量

我正在对以下数据框实施逻辑回归并得到合理(与使用 STATA 相同)的结果。但是我从 R 得到的 Pearson 卡方和自由度与 STATA 非常不同,这反过来又给了我一个非常小的 p 值。而且我无法获得 ROC 曲线下的面积。谁能帮我找出为什么残差()不适用于具有先验权重的 glm(),以及如何处理 ROC 曲线下的面积?

以下是我的代码和输出。

1. 数据

这是我的数据框test_data,y 是结果,x1 和 x2 是协变量:

我通过计算每个协变量模式的出现次数从原始数据生成了这个数据框,并将数字存储在新变量freq中。

2. GLM 模型

然后我做了逻辑回归:

logit=glm(y~x1+x2, data=test_data, family=binomial, weights=freq)

输出显示:

偏差残差:1 2 3 4 5 6 7 8
-7.501 -3.536 -8.818 -1.521 11.957 3.501 10.409 2.129

系数:估计标准。误差 z 值 Pr(>|z|)
(截距)-2.2010 0.1892 -11.632 < 2e-16 ***

x1 1.3538 0.2516 5.381 7.39e-08 ***

x2 1.6261 0.4313 3.770 0.000163 ***


意义。代码:0''0.001''0.01''0.05 '。' 0.1''1

(二项式族的分散参数取为 1)

残余偏差:5 个自由度上的 416.96 AIC:422.96

Fisher 评分迭代次数:5

系数与 STATA 相同。

3. 卡方统计

当我试图计算皮尔逊卡方时:

pearson_chisq = sum(residuals(logit, type = "pearson", weights=test_data$freq)^2)

我得到了 488,而不是 STATA 给出的 1.3。R生成的自由度也是chisq_dof = df.residuals(logit)=5,而不是1。所以我得到了一个非常小的p值~e^-100。

4. 歧视

然后我计算ROC曲线下的面积为: library(verification)

logit_mf = model.frame(logit)

roc.area(logit_mf $y, 拟合(logit))$A

输出是:

在 wilcox.test.default(pred[obs == 1], pred[obs == 0], alternative = "great") 中:无法计算带关系的精确 p 值

谢谢!

0 投票
1 回答
451 浏览

mahout - 基于项目的相似性度量

我正在使用 Mahout Apache 编写基于项目的推荐器(基于用户的相似项目评级),我想知道以下两个相似性指标中哪一个最适合使用:

Pearson、Spearman、Euclidean、Tanimoto 和对数似然

0 投票
1 回答
494 浏览

distribution - 我们可以从两个相关性为 -1 的指数分布中生成数据吗

https://stats.stackexchange.com/questions/66775/attainable-correlations-for-exponential-random-variables

参考上面的链接,我想问一下是否不可能生成两个相关性为 -1 的指数分布?

0 投票
3 回答
1303 浏览

python - 使用 Python 将列从 csv 转换为列表

所以我通常是 Python 的新手,我已经阅读了很多文章,但我仍然不确定如何忽略带有 '#' 的行。

我需要:

  1. 将此 tsv 文件中的四列 (col2-col5) 设为单独的列表。(我将如何选择忽略与夏威夷的行,因为它的数据不完整,因此使用 49 个数据点。)

  2. 然后定义一个函数 Pearson(X,Y),它将两个列表作为参数并返回 Pearson 相关系数。设 X= [x1,x2,...,xn] 且 Y = [y1, y2,....,yn]。X 和 Y 之间的 Pearson 相关系数由下式给出:

r=(nΣxiyi -ΣxiΣyi)/((√(nΣxi^2-(Σxi^2)^2(nΣyi^2-(Σyi)^2))

在定义函数时,我将如何写出 Σ 符号?

这是我到目前为止所拥有的:

0 投票
0 回答
107 浏览

python-3.x - 做这个皮尔逊计算的更“pythonic方式”是什么

好吧,伙计们。我的教授说有一种方法可以在没有 Python3 中任何循环的帮助的情况下执行此功能。我没有看到它atm。她建议使用 zip、enumerate、readlines 和 split(";")(每条评论后跟一个 ';',如果连续有两条,则表示该评论者没有评论这部电影)。我正在做的是看电影,在 movMat 列表中寻找比较电影。然后我将它们与普通评论者进行比较。之后我必须得到 Pearson 计算,这包括获取当前电影的共同评论者、目标电影(比较电影)的值、获得所述共同评论者值的平均值、标准偏差,最后是 Pearson R相关性。

一个示例输入是:

该程序的主要部分处理参数调用、文件中的行和诸如此类的东西,但是输入命令行参数“1”的示例输出将调用玩具故事并将其与数据库中的其他电影进行比较,如下所示:

0 投票
1 回答
239 浏览

haskell - Haskell 中的 Pearson Hash 实现

我必须为学校写这个 Pearson Hash,但我从未听说过它,所以很难想象它是如何工作的。这使我很久以前学习haskell的事情变得更加困难,我几乎忘记了它。

事情是这样的:他们告诉我这个函数的语法是这样的:

Pearson Hash的算法是:

他们说:让C是字节的输入序列,而h是要计算的值。并且 pearson hash 的第一个参数应该是一个预定义的T列表,其中包含 的排列[0..255]

有测试用例:

我认为他们应该是True

这只是工作的一部分(意味着这只是很多功能中的一个),所以我不希望你代替我来解决这个问题,我只需要帮助如何解决这个功能,因为我被这个功能卡住了.

0 投票
1 回答
3860 浏览

python - Pearson correlation on big numpy matrices

I have a 24000 * 316 numpy matrix, each row represents a time series with 316 time points, and I am computing pearson correlation between each pair of these time series. Meaning as a result I would have a 24000 * 24000 numpy matrix having pearson values. My problem is that this takes a very long time. I have tested my pipeline on smaller matrices (200 * 200) and it works (though still slow). I am wondering if it is expected to be this slow (takes more than a day!!!). And what I might be able to do about it... If it helps this is my code... nothing special or hard..

Thanks

0 投票
0 回答
47 浏览

machine-learning - 两人都给产品打了 0 星

如果我们有:用户 1,将产品 A 评为 0 星。用户 2,将产品 A 评为 0 星。

它们之间的皮尔逊相关系数或余弦相似度是多少?根据公式,应该是0/0。但什么是 0/0?它不是一个数字(NaN)。如果两者都以相同的评分对同一产品进行评分,则相关性应为1,即完全相似。

0 投票
2 回答
487 浏览

matlab - Matlab中的Corrcoef非常慢

我有以下代码:

我计算两个矩阵的列的 pearson 相关性。这对我来说很好,结果是正确的。然而,这个过程似乎非常非常缓慢。有谁知道如何在这里加速计算?

0 投票
1 回答
302 浏览

r - 在R中计算运行窗口Spearman相关性和p值

我希望在 R 中计算一个运行窗口 Spearman 相关性。到目前为止,我一直在使用runningfrom gtoolspackage,但我只能从中得到 Pearson 相关性。我试图修改fun参数,但无法让它产生任何错误。

我的输入是一个data.frame:

等等,这是我试图操纵的基本运行命令:

我的第二个问题是如何添加每个“窗口”的 pvalue ?

谢谢!