选择相似性指数时要考虑哪些决定因素。在什么情况下欧几里得距离比皮尔逊更受欢迎,反之亦然?
2 回答
相关性与单位无关;如果将其中一个对象缩放十次,您将获得不同的欧几里德距离和相同的相关距离。因此,当您想要测量诸如由其表达谱定义的基因之类的对象之间的距离时,相关性指标非常有用。
通常,绝对或平方相关被用作距离度量,因为我们对关系的强度比对它的符号更感兴趣。
但是,相关性只适用于高维数据;对于二维或三维数据点,几乎没有计算它的意义。
另请注意,“皮尔逊距离”是欧几里得距离的加权类型,而不是使用皮尔逊相关系数的“相关距离”。
这真的取决于你手头的应用场景。非常简单地说,如果您正在处理属性值的实际差异很重要的数据,请使用欧几里德距离。如果您正在寻找趋势或形状相似性,请使用相关性。另请注意,如果您对每个对象执行 z 分数归一化,欧几里德距离的行为类似于 Pearson 相关系数。Pearson 对数据的线性变换不敏感。还有其他类型的相关系数只考虑值的等级,对线性和非线性变换都不敏感。请注意,通常将相关性用作相异性的是 1 - 相关性,它不遵守度量距离的所有规则。
有一些关于在特定应用程序上选择邻近度度量的研究,例如:
Pablo A. Jaskowiak、Ricardo JGB Campello、Ivan G. Costa Filho,“基因表达微阵列数据聚类的邻近测量:验证方法和比较分析”,IEEE/ACM Transactions on Computational Biology and Bioinformatics,第一卷。99,没有。预印本,p。1, , 2013