我正在尝试从 Scipy 包中实现两个样本 Kolmogorov-Smirnov 测试,以测试两个样本的分布是否存在差异。样品是在两个不同时期出售的 T 恤尺寸(S、M、L、XL 和 XXL)。我想测试两个时期的大小分布是否不同。
我遇到的问题是,与使用原始数据相比,当我预先计算每种尺寸的总百分比时,我得到的结果非常不同。我不明白这一点,因为百分比仍然代表相同的分布。
这是我使用的代码(x 和 y 是原始数据,x1 和 y1 是计算的百分比):
from scipy.stats import ks_2samp
x = (254, 526, 576, 622, 409)
y = (92, 214, 366, 365, 287)
x1 = (10.6, 21.9, 24.0, 25.9, 17.1)
y1 = (7.0, 16.2, 27.7, 27.7, 21.7)
print(ks_2samp(x, y))
print(ks_2samp(x1, y1))
这是我得到的两个不同的结果:
Ks_2sampResult(statistic=0.80000000000000004, pvalue=0.03614619076928504) Ks_2sampResult(statistic=0.40000000000000002, pvalue=0.69740487802059081)