问题标签 [kruskal-wallis]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
pandas - 在多列上运行 Kruskal-Wallis/ANOVA
我正在尝试在数据框中做 kruskal-wallis。在行中——我有 4 组数据(4 种疾病诊断),每组有 6 名患者。在列中——我有大约 7000 个基因。
我正在尝试在每个基因的 4 组中执行 kruskal-wallis/ANOVA。
我可以通过这段代码来做到这一点-
stats.kruskal(*[group["gene_1"].values for name, group in df.groupby("disease_diagnosis")])
这给出了基因 1 的 p 值
我试图通过我尝试了这段代码的 7000 个基因(在列中)来完成这项工作。
这在我尝试过的其他方法中不起作用。将有助于获得一些指导..谢谢
r - R ggplot2:将 kruskal Wallis 和成对 Wilcoxon 检验添加到每组和方面内具有多个组/子组的箱线图中
我正在尝试将 kruskal Wallis 和成对 Wilcoxon 检验添加到图中以显示哪些组显着不同,但我在每个组和方面都有多个组/子组,这使得它变得复杂。
这是以 iris 数据集为例的 R 代码,其想法是针对不同的变量(Sepal.Length、Sepal.Width、Petal.Length、Petal.Width)在不同的处理(A、B、C)中执行 Kruskal.test ) 每个物种,以及它们之间的 wilcox.test 成对测试:
为了改善这个数字,我想:
- 自动将“df_kw”中的 Kruskal 测试结果作为文本添加到图中,并且仅显示显着的 p 值(例如 KW(petal.length)p = 0.003)
- 使不同变量(例如花瓣/花瓣长度/宽度)的处理(例如“A”、“B”、“C”)之间的威尔克森线看起来整齐(例如,所有在箱线图的顶部,具有一致的行距)
- 使 wilcoxon 测试线的颜色与箱线图的颜色相同(当 wilcoxon 测试变量小于实际变量时,如果我隐藏非显着性,现在 'ggpar' 并不总是有效)
我被困在这里,想知道有人有解决方案吗?非常感谢!
python - Python 中的多变量 Kruskall Wallis 包
我想调查三个不同组之间是否存在显着差异。这些组大约有 20 个数字属性。对于每个属性,大约有一千个观察值。
我的第一个想法是计算一个manova。不幸的是,数据不是正态分布的(使用 Anderson Darling 测试进行测试)。从数据来看,分布在均值附近太窄了,根本没有尾巴。无论如何,当我计算 Manova 时,会得出非常显着的结果,这完全出乎我的意料。
因此,接下来我想计算一个多元 Kurskall Wallis 检验。到目前为止,我已经找到了 scipy.stats.kruskal。不幸的是,它只比较单个数据系列。Python 中是否已经存在与 MANOVA 类似的实现,您可以在其中读取所有属性和所有三个组,然后给出结果?
如果您需要更多信息,请告诉我。
非常感谢!:)
model - H0下kruskal wallis的分布
我不确定,但我想检查一下。
H0 下 kruskal wallis 的分布是否为 F(k-1,Nk) ?
我认为那不是真的。
我认为它与卡方分布。谁能告诉我我是否正确?
python - 多列的 Kruskal wallis 检验
我是 python 的新手,并试图对分为两个组(C2 和 S1)的多个列执行 Kruskal Wallis 测试。
到目前为止,我已经能够使用以下代码对单个列进行 Kruskal Wallis 测试。(我通过网络收集的)
我尝试使用“while 循环”来遍历所有列,但直到现在还不能这样做。我还在 StackOverflow 中解决了几乎所有与此相关的问题,但我无法解决我的问题。
谁能帮我做这件事?如果这是一个非常基本的问题,我很抱歉。
下面是我的数据的样子。
r - 如何在 R 中运行 Kruskal-Wallis 或 Mann-Whitney 检验?
谁能给我一个关于如何在下面运行 Kruskal-Wallis 测试的提示?
我的目标:对于每个家庭来说,Forest 和 Urban 之间的细菌生长 (agg_rel_abund) 是否有任何意义。
我在 R 中尝试过的代码:kruskal.test(Habitat ~ agg_rel_abund, data = my_data)
但显然我知道这是错误的......因为我没有达到我的目标......
让我简要解释一下我的数据:
有样本类型,即 F 和 W。
当样本名称以 F 开头时,表示 Habitat 来自 Urban。
当样本名称以 W 开头时,表示 Habitat 来自 Forest。
如果要进行 Mann-Whitey 检验,或者任何非参数检验也可以……只要能够了解 Forest 和 Urban 之间细菌生长(agg_rel_abund)对每个家庭的意义。
样本 | 栖息地 | 家庭 | agg_rel_aund |
---|---|---|---|
F10 | 城市的 | 醋杆菌科 | 0 |
F2 | 城市的 | 醋杆菌科 | 0 |
F3 | 城市的 | 醋杆菌科 | 0 |
F7 | 城市的 | 醋杆菌科 | 0.000132118 |
F8 | 城市的 | 醋杆菌科 | 0 |
W10 | 森林 | 醋杆菌科 | 0 |
W13 | 森林 | 醋杆菌科 | 0 |
W3 | 森林 | 醋杆菌科 | 0 |
W6 | 森林 | 醋杆菌科 | 0 |
W9 | 森林 | 醋杆菌科 | 0 |
F10 | 城市的 | 芽孢杆菌科 | 0.00488836 |
F2 | 城市的 | 芽孢杆菌科 | 0.000924825 |
F3 | 城市的 | 芽孢杆菌科 | 0.001056943 |
F7 | 城市的 | 芽孢杆菌科 | 0.002378121 |
F8 | 城市的 | 芽孢杆菌科 | 0.002906593 |
W10 | 森林 | 芽孢杆菌科 | 0.000264236 |
W13 | 森林 | 芽孢杆菌科 | 0.027876866 |
W3 | 森林 | 芽孢杆菌科 | 0.001585414 |
W6 | 森林 | 芽孢杆菌科 | 0.001056943 |
W9 | 森林 | 芽孢杆菌科 | 0.004492007 |
F10 | 城市的 | 肉杆菌科 | 0 |
F2 | 城市的 | 肉杆菌科 | 0 |
F3 | 城市的 | 肉杆菌科 | 0 |
F7 | 城市的 | 肉杆菌科 | 0 |
F8 | 城市的 | 肉杆菌科 | 0.000132118 |
W10 | 森林 | 肉杆菌科 | 0 |
W13 | 森林 | 肉杆菌科 | 0 |
W3 | 森林 | 肉杆菌科 | 0.000132118 |
W6 | 森林 | 肉杆菌科 | 0 |
kruskal-wallis - Kruskal-Wallis 检验的正态假设
我想对具有 3 个类别的变量执行 Kruskal-Wallis 测试作为 ANOVA 测试的替代方法:关于价格的政策 A、政策 B 和政策 C。在此之前,我对每个策略组进行了正态性测试。我发现策略 A 和策略 C 不是正态分布的,但策略 B 是正态分布的。我可以知道这是否违反 Kruskal-Wallis 测试假设?
r - 如何在数据框列表上 lapply() 公式。或如何在数据帧列表上执行 kruskal.test()
所以我有这个数据并试图完成kruskal.test()
一个包含数据框的列表
我试图kruskal.test
在这 3 个数据帧上执行,但在试图找到解决方案数小时后失败了。我是 R 的新手。
失败的尝试是:
摘要:我正在尝试kruskal.test()
处理一组包含数据框的列表。如何传递公式lapply()
或在列表中的每个数据框中Map()
运行?kruskal.test()
max - Kruskall Wallis 相同的最大值
我正在尝试使用 Kruskal-Wallis 测试来测试三组的差异。但是确定变量的最大值在 3 组中是相同的,所以 kruskal-Wallis 它不是结果差异,虽然我知道存在,不是在最大值方面,而是在总和方面。在这种情况下我能做什么?
distribution - 测试 R 或 Python 中不同组的多峰分布差异
我正在分析来自 3 种不同步态速度的数据。对于每个组/速度,我正在确定称为“角度”的特定值。每组有不同的样本量。所以,我需要比较多模态分布,我想统计测试以下内容:
- 每组内 3 个模态(峰)之间存在显着差异
- 所有三组的相同模式之间没有显着差异(与其他 2 种模式相比)。
分布如下所示,值得注意的是,每组的 3 种模式相对于彼此出现大约相同的值。
我被这个困住了。我已经尝试过 KDE,并且得到了 3 个预期的集群。我不确定如何证明差异。我也尝试过 Kruskal-Wallis 非参数检验(针对不同的样本量),但结果显示组之间存在显着差异,我认为分布在统计上没有差异(2. 上面的点)。
另一个问题是这是循环问题,因为角度是从 0 到 360,所以我不确定这是否会改变方法(我已经预处理数据来处理这个问题)。
你能帮忙吗?
请注意,我的真实数据要大得多,我不能在这里复制,所以我在下面给出一个玩具示例(红色小提琴图来自真实数据):