我正在计算集群上做一些实验。我的算法有两个步骤。第一个将其输出写入第二步将使用的一些文件。依赖关系是 1 到 n,这意味着一个 step2 程序需要 n step1 程序的输出。我不知道做什么既不腰集群资源也不让头节点忙。我目前的解决方案是:
提交脚本(这在头节点上运行)
for different params, p:
run step 1 with p
sleep some time based on the an estimate of how much step 1 takes
for different params, q:
run step 2 with q
第 2 步算法(在计算节点上运行)
while files are not ready:
sleep a few minutes
do the step 2
有没有更好的方法来做到这一点?