python - 来自非参数测试的极低 p 值

Question

我正在使用 Python 的非参数测试来检查两个样本是否与从相同的潜在父群体中抽取一致：scipy.stats.ks_2samp（2-sample Kolmogorov-Smirnov）、scipy.stats.anderson_ksamp（Anderson-Darling for k samples）和scipy.stats.ranksums（Mann-Whitney- Wilcoxon 用于 2 个样品）。我说两个样本之间存在显着差异的显着性阈值是 p = 0.01。

如果这三个测试返回极低的 p 值（有时像 10^-30 或更低），那么我是否需要担心 scipy 函数出了问题？这些小得离谱的 p 值是否可靠，我可以只报告 p << 0.01（p 远小于我的阈值）吗？

score 3 · Accepted Answer

您无需担心 scipy 函数会出现问题。如此低的 P 值仅意味着您的样本不太可能具有相同的父群体。

也就是说，如果您不期望分布会有所不同，那么现在是确保您正在测量您认为您正在测量的内容的好时机，即您正在向 scipy 提供正确的数据。

score 2 · Accepted Answer

一个可能导致不正确（太小）p 值的常见错误（至少在生命科学中）是测试的独立性假设——测试通常假设样本中的观察（数据点）是独立的——是违反。例如， GraphPad 的Mann-Whitney清单在“与错误无关”下有此内容。

作为参考，这篇 2010 年的论文研究了 Nature Neuroscience（神经科学领域的顶级期刊）的一期，发现“12% 的论文存在假复制，另外 36% 的论文被怀疑存在假复制”。

score 0 · Accepted Answer

好吧，您遇到了显着性检验的一个众所周知的特征，即随着样本量无限制地增加，p 值通常会变为零。如果原假设为假（通常可以先验建立），那么您可以通过增加样本量来获得尽可能小的 p 值。

我的建议是考虑分布不同带来的实际差异。尝试用成本来量化它，无论是真实的（美元）还是抽象的。然后为此设计一个测量方法。

python - 来自非参数测试的极低 p 值

3 回答 3

Related

Reference