一直在探索对类型为的时间序列数据进行聚类的不同选项:
两个不同的事件 - 比如说 1,2
活动时间(纳米)
- 1 1e3
- 1 6e3
- 1 8e3
- 2 12e3
- 1 54e3
- 1 58e3
- 1 62e3
- 1 67e3
- 1 70e3
- 1 75e3
- 2 103e3
- 2 108e3
- 2 114e3
- 等等等等
即,时间是随机的(指数分布)并且记录事件 1 或事件 2。录音以纳秒为单位。数据集很大,可达 15-20 mts,有数百万个点
这些事件是相关的,因此可能会发生一堆 2 或 1。例如,会有小片段(1 毫秒长的片段,两种类型都有 100-200 个事件)。在某些情况下,将发生一系列需要丢弃的事件类型。大多数时候,只记录一个或几个事件,这只是噪音(> 80% 的数据)。
这显然是一个时间序列数据,带有事件类型信息。
我想应用聚类方法来识别有意义的小块。我正在使用 Matlab 并尝试研究诸如 DBSCAN、k-means 之类的选项(因为我不知道先验聚类的数量,所以没用)等,
(记录时间本身可以被视为“距离”,因为这些是连续的块。即,如果 x 是(事件,时间),则 dist(x1,x2) = abs(x2(2) - x1(2) );此外,在时间 = 10.2 到 10.23 秒时发生的有意义的事件序列与任何其他片段都没有关系。即,聚类仅用于“识别”短片段(预计在整个片段中只有 10000 秒)数据集)
任何帮助,将不胜感激 !谢谢。