3

我正在对时间序列数据进行一些数据挖掘。我需要计算两个相等尺寸系列之间的距离或相似度。有人建议我使用欧几里得距离、Cos 相似度或马氏距离。前两个没有提供任何有用的信息。我似乎无法理解网络上的各种教程。

所以,

给定两个向量 A(a1, a2, a3,...,an) 和 B(b1, b2, b3,...,bn) 你如何找到它们之间的马氏距离?

(我收到了关于在SO本身上使用这些距离度量的建议,还有一个关于如何计算 Cos 相似度的问题;所以请在结束这个问题之前考虑一下)

4

1 回答 1

7

您应该估计协方差矩阵。

维基百科中的相关文章是thisthis

对于多元向量(p 维变量的 n 个观测值),马氏距离的公式为

替代文字

其中 S 是协方差矩阵的逆矩阵,可以估计为:

替代文字

其中替代文字是(p 维)随机变量的第 i 个观测值,并且

替代文字

请注意,仅当所有向量的预期值都相同时,使用向量之间的马氏距离才有意义。

我一直认为马氏距离只用于对数据进行分类和检测异常值,例如丢弃实验数据(真/假测试)。从未听说过将其用作“类比”距离。

于 2010-06-24T11:59:45.230 回答