我决定自己在我的 4 核机器上进行基准测试。我通过对每个线程进行 100 次测试,直接比较了 4 个线程和 50 个线程。我使用自己的数字,以便为每个任务有合理的执行时间。
结果和你描述的一样。50 线程版本稍微快一些。这是我的结果的箱线图:
为什么?我认为这归结为线程调度。直到所有线程都完成了工作,任务才完成,每个线程必须完成四分之一的工作。因为你的进程正在与系统上的其他进程共享,如果任何单个线程切换到另一个进程,这将延迟整个任务。当我们等待最后一个线程完成时,所有其他内核都处于空闲状态。请注意 4 线程测试的时间分布比 50 线程测试的时间分布要宽得多,这是我们预期的。
当你使用 50 个线程时,每个线程的事情就更少了。因此,单个线程中的任何延迟对总时间的影响都不那么显着。当调度程序忙于将内核分配给许多短线程时,可以通过给这些线程在另一个内核上的时间来补偿一个内核上的延迟。延迟对一个内核的总体影响并没有那么大。
因此,在这种情况下,额外的上下文切换似乎并不是最大的因素。虽然增益很小,但考虑到处理比上下文切换更重要,稍微占用线程调度程序似乎是有益的。与所有事情一样,您必须为您的应用找到正确的平衡。
[编辑]出于好奇,我在一夜之间进行了测试,而我的计算机并没有做太多其他事情。这次我每次测试使用 200 个样本。同样,测试是交错的,以减少任何本地化后台任务的影响。
这些结果的第一个图是针对低线程数(高达内核数的 3 倍)。你可以看到一些线程数的选择是多么糟糕......也就是说,任何不是核心数量的倍数,尤其是奇数值。
第二个图用于更高的线程数(从内核数的 3 倍到 60)。
上面,随着线程数的增加,您可以看到明显的下降趋势。随着线程数的增加,您还可以看到结果的分布变窄。
在这个测试中,有趣的是,4 线程和 50 线程测试的性能大致相同,并且 4 核测试中结果的分布没有我原来的测试那么广泛。因为计算机没有做太多其他事情,所以它可以花时间进行测试。将一个核心置于 75% 负载下重复测试会很有趣。
为了让事情保持正确,考虑一下:
[另一个编辑]在发布我的最后一批结果后,我注意到混乱的箱线图显示了那些测试是 4 的倍数的趋势,但数据有点难以看到。
我决定只用四的倍数做一个测试,并认为我不妨同时找到收益递减点。所以我使用了 2 次方的线程数,最高可达 1024。我本来会更高,但 Windows 在大约 1400 个线程时出错了。
我认为结果相当不错。如果您想知道小圆圈是什么,这些是中值。我选择它而不是我之前使用的红线,因为它更清楚地显示了趋势。
似乎在这种特殊情况下,支付污垢位于 50 到 150 个线程之间。在那之后,好处很快就消失了,我们进入了过度线程管理和上下文切换的领域。
结果可能会随着任务的延长或缩短而显着变化。在这种情况下,这是一项涉及大量无意义算术的任务,在单核上计算大约需要 18 秒。
通过仅调整线程数,我能够将 4 线程版本的中值执行时间额外减少 1.5% 到 2%。