我在这上面画一个空白。
我有两个数据集:
d1 = [(x1,y1), (x2,y2)...]
d2 = [(x1,y1), (x2,y2)...]
我想获得某种类型的统计值,可能是 r 值之类的东西,它告诉我d2
与d1
.
我在这上面画一个空白。
我有两个数据集:
d1 = [(x1,y1), (x2,y2)...]
d2 = [(x1,y1), (x2,y2)...]
我想获得某种类型的统计值,可能是 r 值之类的东西,它告诉我d2
与d1
.
它取决于这两个向量是什么。您可能想要更具体。
如果它们类似于笛卡尔系统中的 XY 坐标,则距离相关性可能是最合适的(http://en.wikipedia.org/wiki/Distance_correlation#Alternative_formulation:_Brownian_covariance)。
如果x
值相同并且在每个值下具有基于某个模型(即线性模型)d1
的预期值并且具有观察值,那么 Pearson 的 r 可能是一个不错的选择(http://en.wikipedia.org/wiki /Pearson_product-moment_correlation_coefficient)。y
x
d2
y
scipy.stats.pearsonr
如果两者d1
都是d2
相对频率数据(观察到y
的价值事件计数x
),那么某种类型的拟合优度测试可能是正确的方向。scipy.stats.chisquare
, scipy.stats.chi2_contingency
, scipy.stats.ks_2samp
, 仅举几例。