问题标签 [kruskal-wallis]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
42 浏览

pandas - 在多列上运行 Kruskal-Wallis/ANOVA

我正在尝试在数据框中做 kruskal-wallis。在行中——我有 4 组数据(4 种疾病诊断),每组有 6 名患者。在列中——我有大约 7000 个基因。

我正在尝试在每个基因的 4 组中执行 kruskal-wallis/ANOVA。

我可以通过这段代码来做到这一点- stats.kruskal(*[group["gene_1"].values for name, group in df.groupby("disease_diagnosis")])

这给出了基因 1 的 p 值

我试图通过我尝试了这段代码的 7000 个基因(在列中)来完成这项工作。

这在我尝试过的其他方法中不起作用。将有助于获得一些指导..谢谢

0 投票
1 回答
1103 浏览

r - R ggplot2:将 kruskal Wallis 和成对 Wilcoxon 检验添加到每组和方面内具有多个组/子组的箱线图中

我正在尝试将 kruskal Wallis 和成对 Wilcoxon 检验添加到图中以显示哪些组显着不同,但我在每个组和方面都有多个组/子组,这使得它变得复杂。

这是以 iris 数据集为例的 R 代码,其想法是针对不同的变量(Sepal.Length、Sepal.Width、Petal.Length、Petal.Width)在不同的处理(A、B、C)中执行 Kruskal.test ) 每个物种,以及它们之间的 wilcox.test 成对测试:

这将产生以下图: 1

为了改善这个数字,我想:

  1. 自动将“df_kw”中的 Kruskal 测试结果作为文本添加到图中,并且仅显示显着的 p 值(例如 KW(petal.length)p = 0.003)
  2. 使不同变量(例如花瓣/花瓣长度/宽度)的处理(例如“A”、“B”、“C”)之间的威尔克森线看起来整齐(例如,所有在箱线图的顶部,具有一致的行距)
  3. 使 wilcoxon 测试线的颜色与箱线图的颜色相同(当 wilcoxon 测试变量小于实际变量时,如果我隐藏非显着性,现在 'ggpar' 并不总是有效)

我被困在这里,想知道有人有解决方案吗?非常感谢!

0 投票
0 回答
64 浏览

python - Python 中的多变量 Kruskall Wallis 包

我想调查三个不同组之间是否存在显着差异。这些组大约有 20 个数字属性。对于每个属性,大约有一千个观察值。

我的第一个想法是计算一个manova。不幸的是,数据不是正态分布的(使用 Anderson Darling 测试进行测试)。从数据来看,分布在均值附近太窄了,根本没有尾巴。无论如何,当我计算 Manova 时,会得出非常显着的结果,这完全出乎我的意料。

因此,接下来我想计算一个多元 Kurskall Wallis 检验。到目前为止,我已经找到了 scipy.stats.kruskal。不幸的是,它只比较单个数据系列。Python 中是否已经存在与 MANOVA 类似的实现,您可以在其中读取所有属性和所有三个组,然后给出结果?

如果您需要更多信息,请告诉我。

非常感谢!:)

0 投票
1 回答
16 浏览

model - H0下kruskal wallis的分布

我不确定,但我想检查一下。

H0 下 kruskal wallis 的分布是否为 F(k-1,Nk) ?

我认为那不是真的。

我认为它与卡方分布。谁能告诉我我是否正确?

0 投票
0 回答
140 浏览

python - 多列的 Kruskal wallis 检验

我是 python 的新手,并试图对分为两个组(C2 和 S1)的多个列执行 Kruskal Wallis 测试。

到目前为止,我已经能够使用以下代码对单个列进行 Kruskal Wallis 测试。(我通过网络收集的)

我尝试使用“while 循环”来遍历所有列,但直到现在还不能这样做。我还在 StackOverflow 中解决了几乎所有与此相关的问题,但我无法解决我的问题。

谁能帮我做这件事?如果这是一个非常基本的问题,我很抱歉。

下面是我的数据的样子。

0 投票
1 回答
41 浏览

r - 如何在 R 中运行 Kruskal-Wallis 或 Mann-Whitney 检验?

谁能给我一个关于如何在下面运行 Kruskal-Wallis 测试的提示?

我的目标:对于每个家庭来说,Forest 和 Urban 之间的细菌生长 (agg_rel_abund) 是否有任何意义。

我在 R 中尝试过的代码:kruskal.test(Habitat ~ agg_rel_abund, data = my_data)但显然我知道这是错误的......因为我没有达到我的目标......

让我简要解释一下我的数据:

有样本类型,即 F 和 W。

当样本名称以 F 开头时,表示 Habitat 来自 Urban。

当样本名称以 W 开头时,表示 Habitat 来自 Forest。

如果要进行 Mann-Whitey 检验,或者任何非参数检验也可以……只要能够了解 Forest 和 Urban 之间细菌生长(agg_rel_abund)对每个家庭的意义。

样本 栖息地 家庭 agg_rel_aund
F10 城市的 醋杆菌科 0
F2 城市的 醋杆菌科 0
F3 城市的 醋杆菌科 0
F7 城市的 醋杆菌科 0.000132118
F8 城市的 醋杆菌科 0
W10 森林 醋杆菌科 0
W13 森林 醋杆菌科 0
W3 森林 醋杆菌科 0
W6 森林 醋杆菌科 0
W9 森林 醋杆菌科 0
F10 城市的 芽孢杆菌科 0.00488836
F2 城市的 芽孢杆菌科 0.000924825
F3 城市的 芽孢杆菌科 0.001056943
F7 城市的 芽孢杆菌科 0.002378121
F8 城市的 芽孢杆菌科 0.002906593
W10 森林 芽孢杆菌科 0.000264236
W13 森林 芽孢杆菌科 0.027876866
W3 森林 芽孢杆菌科 0.001585414
W6 森林 芽孢杆菌科 0.001056943
W9 森林 芽孢杆菌科 0.004492007
F10 城市的 肉杆菌科 0
F2 城市的 肉杆菌科 0
F3 城市的 肉杆菌科 0
F7 城市的 肉杆菌科 0
F8 城市的 肉杆菌科 0.000132118
W10 森林 肉杆菌科 0
W13 森林 肉杆菌科 0
W3 森林 肉杆菌科 0.000132118
W6 森林 肉杆菌科 0
0 投票
0 回答
8 浏览

kruskal-wallis - Kruskal-Wallis 检验的正态假设

我想对具有 3 个类别的变量执行 Kruskal-Wallis 测试作为 ANOVA 测试的替代方法:关于价格的政策 A、政策 B 和政策 C。在此之前,我对每个策略组进行了正态性测试。我发现策略 A 和策略 C 不是正态分布的,但策略 B 是正态分布的。我可以知道这是否违反 Kruskal-Wallis 测试假设?

0 投票
1 回答
60 浏览

r - 如何在数据框列表上 lapply() 公式。或如何在数据帧列表上执行 kruskal.test()

所以我有这个数据并试图完成kruskal.test()一个包含数据框的列表

我试图kruskal.test在这 3 个数据帧上执行,但在试图找到解决方案数小时后失败了。我是 R 的新手。

失败的尝试是:

摘要:我正在尝试kruskal.test()处理一组包含数据框的列表。如何传递公式lapply()或在列表中的每个数据框中Map()运行?kruskal.test()

0 投票
0 回答
7 浏览

max - Kruskall Wallis 相同的最大值

我正在尝试使用 Kruskal-Wallis 测试来测试三组的差异。但是确定变量的最大值在 3 组中是相同的,所以 kruskal-Wallis 它不是结果差异,虽然我知道存在,不是在最大值方面,而是在总和方面。在这种情况下我能做什么?

0 投票
0 回答
42 浏览

distribution - 测试 R 或 Python 中不同组的多峰分布差异

我正在分析来自 3 种不同步态速度的数据。对于每个组/速度,我正在确定称为“角度”的特定值。每组有不同的样本量。所以,我需要比较多模态分布,我想统计测试以下内容:

  1. 每组内 3 个模态(峰)之间存在显着差异
  2. 所有三组的相同模式之间没有显着差异(其他 2 种模式相比)。

分布如下所示,值得注意的是,每组的 3 种模式相对于彼此出现大约相同的值。 3组多模式分布

我被这个困住了。我已经尝试过 KDE,并且得到了 3 个预期的集群。我不确定如何证明差异。我也尝试过 Kruskal-Wallis 非参数检验(针对不同的样本量),但结果显示组之间存在显着差异,我认为分布在统计上没有差异(2. 上面的点)。

另一个问题是这是循环问题,因为角度是从 0 到 360,所以我不确定这是否会改变方法(我已经预处理数据来处理这个问题)。

你能帮忙吗?

请注意,我的真实数据要大得多,我不能在这里复制,所以我在下面给出一个玩具示例(红色小提琴图来自真实数据):