python - Numpy：比较两个数据集的健康度

Question

我在这上面画一个空白。

我有两个数据集：

d1 = [(x1,y1), (x2,y2)...] 
d2 = [(x1,y1), (x2,y2)...]

我想获得某种类型的统计值，可能是 r 值之类的东西，它告诉我d2与d1.

score 2 · Accepted Answer

它取决于这两个向量是什么。您可能想要更具体。

如果它们类似于笛卡尔系统中的 XY 坐标，则距离相关性可能是最合适的（http://en.wikipedia.org/wiki/Distance_correlation#Alternative_formulation:_Brownian_covariance）。

如果x值相同并且在每个值下具有基于某个模型（即线性模型）d1的预期值并且具有观察值，那么 Pearson 的 r 可能是一个不错的选择（http://en.wikipedia.org/wiki /Pearson_product-moment_correlation_coefficient）。yxd2yscipy.stats.pearsonr

如果两者d1都是d2相对频率数据（观察到y的价值事件计数x），那么某种类型的拟合优度测试可能是正确的方向。scipy.stats.chisquare, scipy.stats.chi2_contingency, scipy.stats.ks_2samp, 仅举几例。

1 回答 1