0

我想对一些包含每日点击率的曲线进行聚类。数据集是时间序列中的点击率数据。

y1 = [time1:0.10,time2:0.22,time3:0.344,...]
y2 = [time1:0.10,time2:0.22,time3:0.344,...]

我不知道如何使用 kmeans 测量两条曲线的相似性。有没有为此目的的论文或一些图书馆?

4

1 回答 1

0

对于相似性,您可以使用任何类型的时间序列距离。其中许多将执行比对,也包括不同长度的序列。

然而,k-means 不会让你到任何地方。

K-means并不意味着用于任意距离。它实际上不使用距离进行分配,而是使用最小平方和(恰好是欧几里得距离的平方) - 也就是:方差。

平均值必须与这个目标一致。不难看出,均值也使平方和最小化。这保证了 k-means 的收敛:在每一步(分配和均值更新)中,目标都会降低,因此它必须在有限数量的步骤后收敛(因为只有有限数量的离散分配)。

但是不同长度的多个时间序列的平均值是什么?

于 2013-04-02T08:31:23.893 回答