我需要处理来自一组流的数据,独立于其他流对每个流应用相同的处理。
我已经见过像storm这样的框架,但它似乎只允许处理静态流(即来自twitter的推文),而我需要分别处理来自每个用户的数据。
我的意思的一个简单例子可能是一个系统,每个用户都可以跟踪他的 gps 位置并实时查看平均速度、加速度、燃烧卡路里等统计数据。当然,每个用户都有自己的流,系统应该分别处理每个用户的流,就好像每个用户都有自己的专用拓扑处理他的数据一样。
有没有办法通过像storm、spark streaming或samza这样的框架来实现这一点?
如果支持 python 那就更好了,因为我已经有很多我想重用的代码。
非常感谢您的帮助