3

我有 6 个时间序列值,如下所示。

import numpy as np
series = np.array([
     [0., 0, 1, 2, 1, 0, 1, 0, 0],
     [0., 1, 2, 0, 0, 0, 0, 0, 0],
     [1., 2, 0, 0, 0, 0, 0, 1, 1],
     [0., 0, 1, 2, 1, 0, 1, 0, 0],
     [0., 1, 2, 0, 0, 0, 0, 0, 0],
     [1., 2, 0, 0, 0, 0, 0, 1, 1]])

假设,我想得到动态时间扭曲的距离矩阵来进行聚类。我为此使用了 dtaidistance 库,如下所示。

from dtaidistance import dtw
ds = dtw.distance_matrix_fast(series)

我得到的输出如下。

array([[       inf, 1.41421356, 2.23606798, 0.        , 1.41421356, 2.23606798],
       [       inf,        inf, 1.73205081, 1.41421356, 0.        , 1.73205081],
       [       inf,        inf,        inf, 2.23606798, 1.73205081, 0.        ],
       [       inf,        inf,        inf,        inf, 1.41421356, 2.23606798],
       [       inf,        inf,        inf,        inf,        inf, 1.73205081],
       [       inf,        inf,        inf,        inf,        inf,        inf]])

在我看来,我得到的输出是错误的。例如,据我了解,输出的对角线值应该是0(因为它们是理想的匹配)。

我想知道我在哪里做错了以及如何解决它。我也很高兴使用其他 python 库得到答案。

如果需要,我很乐意提供更多详细信息

4

2 回答 2

4

一切都是正确的。根据文档

结果存储在矩阵表示中。由于只需要上三角矩阵,因此该表示使用了比必要更多的内存。

所有对角线元素均为 0,下三角矩阵与在对角线上镜像的上三角矩阵相同。由于所有这些值都可以从上三角矩阵中扣除,因此它们不会显示在输出中。
您甚至可以使用该compact=True参数仅从连接到一维数组的上对角矩阵中获取值。

您可以将结果转换为完整的矩阵,如下所示:

ds[ds==np.inf] = 0
ds += dt.T
于 2020-06-05T09:06:52.820 回答
1

dtw.py距离矩阵的元素的默认值被指定为np.inf. 由于矩阵返回不同序列之间的成对距离,因此不会将其填充到矩阵中,从而产生np.inf值。

尝试运行 withdtw.distance_matrix_fast(series, compact=True)以防止看到此填充信息。

于 2020-06-05T09:08:26.487 回答