5

我正在寻找一个程序来执行分布式计算(虽然不需要并行计算),它具有:

  • 调度器
  • 队列管理(FIFO,或者最好是更高级的东西)
  • 一份好的统计报告
  • 能够在异构集群上运行(一组具有不同特性的机器,例如 cpu 和内存)
  • 并且非常重要:良好的响应性(在任务触发和实际开始执行之间最多几秒钟:我听说这可能很难用 HTCondor 和 TORQUE 实现?Apache Mesos 呢?)
4

1 回答 1

1

有一个相当大的维基百科页面进行比较,但你几乎不会发现很大的差异。我的猜测是理论上大多数事情都可以在任一框架中完成。您列出的所有内容都取决于视角(例如,人们通常从 HTCondor 日志中编写自己的复杂统计数据)。关于响应能力:如果有足够的资源供工人接手工作,HTCondor 可以很好地安排交互式笔记本。几秒钟通常没有问题,但几乎没有保证。这些是高吞吐量系统,但不是低延迟系统。如果您关心延迟,您应该预先分配工作人员并扩大和缩小它们(这里对其他框架的支持比原生延迟更有帮助)。

我尽力从我的角度突出每个项目的主要焦点,这对于实际决策很重要:

目标听众

金币:

对比

HTCondor 和扭矩:

  • 公平份额批处理,特别是在科学集群中(高吞吐量计算)

生态系统

金币:

  • Apache 开源项目与社区

对比

宏达:

对比

扭矩:

使用方便

(部分是统计数据,但更多的是仪表板样式)

金币和扭矩:

  • 网页界面
  • 通常与其他可用框架集成(对于 TORQUE 查找 PBS)

宏达:

  • 新的、正在开发的 REST 和 python 交互,但没有通用的 GUI
  • 在框架支持方面落后一点(R batchtools,最近有 dask 支持)
于 2020-05-23T11:32:43.350 回答