我正在查看ks 测试(2 个样本)的 scipy 代码,它计算任何两个给定样本的 CDF 之间的最大距离。计算累积分布函数的代码(CDF)
。
我无法理解计算 cdf 的逻辑。首先,data1
和data2
被排序,然后使用np.searchsorted
我们试图找到 和 中的data_all
位置。只不过是 sorted和的串联。data1
data2
data_all
data1
data2
如果 的最小值data2
低于data1
. cdf
这不违反不应随价值减少的假设吗
data_all = np.concatenate([data1,data2])
cdf1 = np.searchsorted(data1,data_all,side='right')/(1.0*n1)
cdf2 = (np.searchsorted(data2,data_all,side='right'))/(1.0*n2)