python - Python Scipy 中的两个样本 Kolmogorov-Smirnov 测试

Question

我不知道如何在 Scipy 中进行两样本 KS 测试。

我可以看到如何测试分布与标准正态分布相同的位置

from scipy.stats import kstest
import numpy as np

x = np.random.normal(0,1,1000)
test_stat = kstest(x, 'norm')
#>>> test_stat
#(0.021080234718821145, 0.76584491300591395)

这意味着在 p 值为 0.76 时，我们不能拒绝两个分布相同的原假设。

但是，我想比较两个分布，看看我是否可以拒绝它们相同的原假设，例如：

from scipy.stats import kstest
import numpy as np

x = np.random.normal(0,1,1000)
z = np.random.normal(1.1,0.9, 1000)

并测试 x 和 z 是否相同

我尝试了天真：

test_stat = kstest(x, z)

并得到以下错误：

TypeError: 'numpy.ndarray' object is not callable

有没有办法在 Python 中进行两个样本的 KS 测试？如果是这样，我该怎么做？

先感谢您

score 145 · Accepted Answer

您正在使用单样本 KS 测试。您可能需要两个样本测试 ks_2samp：

>>> from scipy.stats import ks_2samp
>>> import numpy as np
>>> 
>>> np.random.seed(12345678)
>>> x = np.random.normal(0, 1, 1000)
>>> y = np.random.normal(0, 1, 1000)
>>> z = np.random.normal(1.1, 0.9, 1000)
>>> 
>>> ks_2samp(x, y)
Ks_2sampResult(statistic=0.022999999999999909, pvalue=0.95189016804849647)
>>> ks_2samp(x, z)
Ks_2sampResult(statistic=0.41800000000000004, pvalue=3.7081494119242173e-77)

结果可以解释如下：

您可以根据您的样本量将statisticpython 给出的值与KS-test 临界值表进行比较。当statistic值高于临界值时，两种分布不同。
或者您可以将p-valuea 与显着性水平a进行比较，通常 a=0.05 或 0.01（您决定，a 越低，越显着）。如果 p 值低于a，则很可能两个分布不同。

score 7 · Accepted Answer

这就是 scipy 文档所说的：

如果 KS 统计量很小或 p 值很高，那么我们不能拒绝两个样本的分布相同的假设。

不能拒绝不代表我们确认。

python - Python Scipy 中的两个样本 Kolmogorov-Smirnov 测试

2 回答 2

Related

Reference