我在这上面画一个空白。
我有两个数据集:
d1 = [(x1,y1), (x2,y2)...]
d2 = [(x1,y1), (x2,y2)...]
我想获得某种类型的统计值,可能是 r 值之类的东西,它告诉我d2与d1.
我在这上面画一个空白。
我有两个数据集:
d1 = [(x1,y1), (x2,y2)...]
d2 = [(x1,y1), (x2,y2)...]
我想获得某种类型的统计值,可能是 r 值之类的东西,它告诉我d2与d1.
它取决于这两个向量是什么。您可能想要更具体。
如果它们类似于笛卡尔系统中的 XY 坐标,则距离相关性可能是最合适的(http://en.wikipedia.org/wiki/Distance_correlation#Alternative_formulation:_Brownian_covariance)。
如果x值相同并且在每个值下具有基于某个模型(即线性模型)d1的预期值并且具有观察值,那么 Pearson 的 r 可能是一个不错的选择(http://en.wikipedia.org/wiki /Pearson_product-moment_correlation_coefficient)。yxd2yscipy.stats.pearsonr
如果两者d1都是d2相对频率数据(观察到y的价值事件计数x),那么某种类型的拟合优度测试可能是正确的方向。scipy.stats.chisquare, scipy.stats.chi2_contingency, scipy.stats.ks_2samp, 仅举几例。