3

SO的好人,

我需要通过各种步骤处理一组(庞大的)数据;每个步骤都可能涉及 mapReduce(使用Disco)、一般分布式处理(使用Celery)或服务器上的一些简单处理。我正在寻找可以帮助管理此类工作流的工作流引擎/库/框架。

我研究了许多选项,并且spiff 工作流似乎是最灵活的,但它似乎不支持状态转换操作并且它是单线程的(所以我不确定如何处理并行网关)。

请就管理此类工作流程/工作的方法/工具提出建议。如果有一个带有监控工具的框架(最好是基于 Web 或可以与Pyramid集成),那就更好了。

提前致谢

4

1 回答 1

0

对于流水线批处理数据处理任务,我们使用基于Spotify 的 Luigi 框架的解决方案。它的central scheduler调度和监控工具是一个基于Tornado的网络服务器。

于 2013-11-26T14:54:14.503 回答