我有几组大数据集,用于创建非标准概率分布(numpy.histogram
用于对数据进行分箱,并使用scipy.interpolate
'sinterp1d
函数对结果曲线进行插值)。我还创建了一个函数,可以使用scipy.stats
包从这些自定义 PDF 中采样。
我的目标是查看我的样本大小的变化如何改变它们来自的分布以及其他 PDF 的拟合优度,并确定需要多大的样本才能完全确定它是否来自一个或另一个我的自定义 PDF。
为此,我收集到我需要使用某种非参数统计分析,即查看是否从提供的概率分布中提取了一组数据。做了一些研究,Anderson-Darling 检验似乎对此非常理想,但是它在 python ( scipy.stats.anderson
) 中的实现似乎仅可用于预设概率分布,例如正态、指数等。
所以我的问题是:考虑到我的许多非标准 PDF(或必要时的 CDF,或者我用来创建它们的数据),在 Python 中计算一组样本数据与每个模型的匹配程度的最佳方法是什么?如果是 Anderson-Darling 测试,是否有某种方法可以定义自定义 PDF 进行测试?
谢谢。任何帮助深表感谢。