1

我在这上面画一个空白。

我有两个数据集:

d1 = [(x1,y1), (x2,y2)...] 
d2 = [(x1,y1), (x2,y2)...]

我想获得某种类型的统计值,可能是 r 值之类的东西,它告诉我d2d1.

4

1 回答 1

2

它取决于这两个向量是什么。您可能想要更具体。

如果它们类似于笛卡尔系统中的 XY 坐标,则距离相关性可能是最合适的(http://en.wikipedia.org/wiki/Distance_correlation#Alternative_formulation:_Brownian_covariance)。

如果x值相同并且在每个值下具有基于某个模型(即线性模型)d1的预期值并且具有观察值,那么 Pearson 的 r 可能是一个不错的选择(http://en.wikipedia.org/wiki /Pearson_product-moment_correlation_coefficient)。yxd2yscipy.stats.pearsonr

如果两者d1都是d2相对频率数据(观察到y的价值事件计数x),那么某种类型的拟合优度测试可能是正确的方向。scipy.stats.chisquare, scipy.stats.chi2_contingency, scipy.stats.ks_2samp, 仅举几例。

于 2013-11-29T21:38:51.533 回答