问题标签 [pearson]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 大数字的错误相关结果
如果向量中有非常大的数字,则该cor()
函数无法计算相关值并仅返回零:
虽然1e155
很大,但比 R 可以处理的最大数量要小得多。令我惊讶的是,为什么 R 返回错误的值并且没有返回更合适的结果,例如NA
or Inf
。
有什么理由吗?如何确保我们的程序不会遇到这样的情况?
r - R中不同处理的相关矩阵
使用下面的代码,我创建了一个相关矩阵。下面的代码只是为所有数据创建了一个矩阵,无论处理如何。但是,我数据中的一列是治疗。我想制作两个不同的矩阵(每种治疗类型一个)。我的治疗是第 6 列“治疗”中的分类值。第 10 到 44 列我想为其创建一个矩阵。
r - 当您的数据是观察列表时,R中的卡方检验
当您的数据采用观察列表的形式时,是否可以计算R中的卡方?我的意思是,如果你知道十字架,就很容易得到卡方。例如,如果您进行一项调查并询问性别和真假问题,则只需四个数字即可计算卡方。相反,我有两列数据,每个受访者的答案。是否有可能从这种数据结构中得到卡方,还是我必须转换它?
如果我必须将它转换为R,有没有人知道另一种语言可以让我直接得到卡方?
algorithm - k 表示聚类算法
我想对一组 10 个数据点执行 ak 均值聚类分析,每个数据点都有一个由 4 个数值组成的数组与之关联。我使用 Pearson 相关系数作为距离度量。我做了 k 均值聚类算法的前两个步骤,它们是:
1)选择k个簇的一组初始中心。【我随机选择了两个初始中心】
2)将每个对象分配给具有最近中心的集群。[我使用 Pearson 相关系数作为距离度量——见下文]
现在我需要帮助理解算法的第三步:
3)计算集群的新中心:
其中 X,在这种情况下是一个 4 维向量,n 是集群中数据点的数量。
对于以下数据,我将如何计算 C(S)?
k 均值算法的最后一步是重复第 2 步和第 3 步,直到没有对象更改集群,这很简单。
我需要第 3 步的帮助。计算集群的新中心。如果有人可以通过并解释如何计算其中一个集群的新中心,那将极大地帮助我。
r - 近似 R 中二项式随机变量之和的分布
我的目标是近似二项式变量总和的分布。我使用 Ken Butler 和 Michael Stephens 的以下论文The Distribution of a Sum of a Binomial Random Variables。
我想编写一个 R 脚本来找到二项式总和的 Pearson 近似值。有一个 R 包 PearsonDS允许以简单的方式执行此操作。
因此,我从论文中获取第一个示例,并尝试找出这种情况下 Pearson 分布的密度。最后我收到一条错误消息“这些时刻没有概率分布”。
你能解释一下下面的代码有什么问题吗?
# 定义五个二项式随机变量的参数
# 找到前四个累积量
# 求偏度和峰度参数
# 定义时刻并计算
我收到错误消息“这些时刻没有概率分布”。
apache-commons - 如果一个值为0,如何计算相关性
为了计算两个数组之间的皮尔逊系数,我使用以下内容:
对于我收到的输出:相关性为 NaN
PearsonsCorrelation 类包含在 apache commons API 中:http ://commons.apache.org/proper/commons-math/userguide/stat.html
每个数组中的值取决于用户是否在他们的数据集中包含一个词。上面的数组应该是完全相关的?
这个问题与如何设置计算欧式距离和相关性的值有关
python - Scipy: Pearson's correlation always returning 1
I am using Python library scipy to calculate Pearson's correlation for two float arrays. The returned value for coefficient is always 1.0, even if the arrays are different. For example:
I am calling the routine in this way:
The value of r_row
is always 1.0. What am I doing wrong?
matlab - 如何在 MATLAB 中生成一个数据集,其中变量将与预先指定的级别相关?
我正在寻找一个包含三列和任意行数的数据集。
我希望第 1 列与第 2 列具有 Pearson 相关性 0.20,第 1 列将 0.24 与第 3 列相关,第 2 列将 0.3 与第 3 列相关。
我该如何制作这个?
r - R:沿时间线计算每个单元格中的 Pearson 相关系数
我有两组栅格,它们都具有相同的 x、y、z 范围。我做了两个堆栈:stacka 和 stackb。我想计算沿时间线的两个堆栈之间的每个网格单元中的 Pearson 相关系数 ( PCC )。我做了一个更简单的例子(请原谅我创建栅格的愚蠢方式)
最后,我有一个栅格,每个网格单元都填充了 PCC。问题是,数据 a 是断断续续的,某些网格在某些层中是 NA。所以最终产品有一些空白。我的算法在遇到 NA 时会吐出“NA”。我需要像na.rm=TRUE
计算中的一些选项,因此输出将计算任何月份的值。
我能想到的方法是is.na(stacka[[nlayers]][nrows,ncols]==FALSE
在stackb中使用并找到对应的对,但这是基于单元格的,这需要大量的计算机时间。
python - scipy.stats 是怎么做的。.fit 方法有效吗?
如何分发健身测试,例如。scipy.stats.norm.fit
工作?对 scipy 源代码的调查使我找到了rv_continuous.fit
方法,但它看起来像打空气。使用什么算法,皮尔逊卡方检验或其他一些算法?
UPD据我了解,内部优化算法fit
可找到最大似然估计。但是例如对于scipy.stats.norm
,最大似然是众所周知的——它是正态均值的样本均值和来自样本方差的平方根——对于 sigma。为什么不直接计算?