我想并行运行 100 个网络(非 CPU 密集型)作业,并想了解最佳方法。
具体来说,是否可以使用 xargs 运行 100 多个作业,有哪些缺点?
我知道有一点需要进行更多的上下文切换,然后是实际的数据包处理。如何理解该点在哪里以及将其最小化的最佳方法是什么?
例如,是否有更好的工具可以使用 xargs 等?
我想并行运行 100 个网络(非 CPU 密集型)作业,并想了解最佳方法。
具体来说,是否可以使用 xargs 运行 100 多个作业,有哪些缺点?
我知道有一点需要进行更多的上下文切换,然后是实际的数据包处理。如何理解该点在哪里以及将其最小化的最佳方法是什么?
例如,是否有更好的工具可以使用 xargs 等?
更好通常是口味问题。
使用 GNU Parallel,您可以执行以下操作以并行获取 100 个图像:
seq 1000 | parallel -j100 wget https://foo.bar/image{}.jpg
如果您想要来自 100 台服务器的数据并且每次都得到一个完整的行:
parallel -a servers.txt -j0 --line-buffer my_connect {}
或者:
parallel -a servers.txt -j0 --line-buffer --tag my_connect {}
GNU Parallel 是一个通用的并行器,可以轻松地在同一台机器上或在您可以通过 ssh 访问的多台机器上并行运行作业。
如果您想在 4 个 CPU 上运行 32 个不同的作业,那么并行化的直接方法是在每个 CPU 上运行 8 个作业:
GNU Parallel 会在完成后生成一个新进程 - 保持 CPU 处于活动状态,从而节省时间:
安装
出于安全原因,您应该使用软件包管理器安装 GNU Parallel,但如果 GNU Parallel 没有为您的发行版打包,您可以进行个人安装,这不需要 root 访问权限。这样做可以在 10 秒内完成:
(wget -O - pi.dk/3 || curl pi.dk/3/ || fetch -o - http://pi.dk/3) | bash
有关其他安装选项,请参阅http://git.savannah.gnu.org/cgit/parallel.git/tree/README
学到更多
查看更多示例:http ://www.gnu.org/software/parallel/man.html
观看介绍视频:https ://www.youtube.com/playlist?list=PL284C9FF2488BC6D1
浏览教程:http ://www.gnu.org/software/parallel/parallel_tutorial.html
注册电子邮件列表以获得支持:https ://lists.gnu.org/mailman/listinfo/parallel