2

我们有一个数据管道系统

apache kafka---->spark steaming----->spark mlib

消耗的数据是时间序列数据(例如每条记录的形式为[key,value,timestamp])

我们想要监控每个键的时间序列异常(如 twitter 异常https://anomaly.io/anomaly-detection-twitter-r/

即,我们想要训练系统(针对每个键)并且我们想要在线检测异常(即,如果特定键的值范围在一天中的特定时间超出通常范围)。

这可以用apache spark完成吗?k-means 能帮上忙吗?我们可以有一个示例代码(scala 代码)吗?他们有任何框架或库吗?

4

0 回答 0