GNU Parallel 正是为此类任务而设计的。
evaluate_f() {
x="$1"
# do some crazy computation
}
seq 48 | env_parallel --env evaluate_f -Snode{1..12} evaluate_f {}
如果机器没有真正被称为 node1 .. node12,那么它会变得更长一点:
seq 48 | env_parallel --env evaluate_f -Snode1,nodeb,nodeIII,node0100,node0x5,node6,nodeg,nodeVIII,node01001,node0xa,node11,nodel evaluate_f {}
如果文件中有节点:
seq 48 | env_parallel --env evaluate_f --slf my_nodefile evaluate_f {}
这样做的目的是将函数复制evaluate_f
到远程服务器并在其中使用一个参数从seq 48
. 默认情况下,它将在服务器中的每个 cpu-core 运行一个作业。如果您的计算不是多线程的并且没有大量的磁盘 I/O,那么这是有道理的。这可以通过 --jobs 进行更改。
env_parallel
在版本 20160322 中引入,因此请确保您的版本比该版本更新。
GNU Parallel 是一个通用的并行器,可以轻松地在同一台机器上或在您可以通过 ssh 访问的多台机器上并行运行作业。
如果您想在 4 个 CPU 上运行 32 个不同的作业,那么并行化的直接方法是在每个 CPU 上运行 8 个作业:
GNU Parallel 会在完成后生成一个新进程 - 保持 CPU 处于活动状态,从而节省时间:
安装
您应该使用您的包管理器安装 GNU Parallel,但如果 GNU Parallel 没有为您的发行版打包,您可以进行个人安装,这不需要 root 访问权限。这样做可以在 10 秒内完成:
(wget -O - pi.dk/3 || curl pi.dk/3/ || fetch -o - http://pi.dk/3) | bash
有关其他安装选项,请参阅http://git.savannah.gnu.org/cgit/parallel.git/tree/README
学到更多
查看更多示例:http ://www.gnu.org/software/parallel/man.html
观看介绍视频:https ://www.youtube.com/playlist?list=PL284C9FF2488BC6D1
浏览教程:http ://www.gnu.org/software/parallel/parallel_tutorial.html
注册电子邮件列表以获得支持:https ://lists.gnu.org/mailman/listinfo/parallel