在我们的 HPC 集群上,其中一位用户在超过 30 个内核上运行 mpiblast 作业。这些通常会在大约 10 个不同的节点上结束,这些节点通常在用户之间共享。尽管这些作业偶尔可以很好地扩展并且可以有效地使用大约 90% 的可用内核,但扩展性通常非常糟糕,因为作业只能累积对应于大约 10% 可用内核的 CPU 时间。
一般来说,mpiblast 是否应该更好地扩展?有谁知道哪些因素可能导致缩放不良?
在我们的 HPC 集群上,其中一位用户在超过 30 个内核上运行 mpiblast 作业。这些通常会在大约 10 个不同的节点上结束,这些节点通常在用户之间共享。尽管这些作业偶尔可以很好地扩展并且可以有效地使用大约 90% 的可用内核,但扩展性通常非常糟糕,因为作业只能累积对应于大约 10% 可用内核的 CPU 时间。
一般来说,mpiblast 是否应该更好地扩展?有谁知道哪些因素可能导致缩放不良?