我们有一个数据管道系统
apache kafka---->spark steaming----->spark mlib
消耗的数据是时间序列数据(例如每条记录的形式为[key,value,timestamp])
我们想要监控每个键的时间序列异常(如 twitter 异常https://anomaly.io/anomaly-detection-twitter-r/)
即,我们想要训练系统(针对每个键)并且我们想要在线检测异常(即,如果特定键的值范围在一天中的特定时间超出通常范围)。
这可以用apache spark完成吗?k-means 能帮上忙吗?我们可以有一个示例代码(scala 代码)吗?他们有任何框架或库吗?