我有 2 个略有不同的网络爬虫版本。我想比较它们的性能(特别是爬取给定域所花费的时间)。我考虑了这两个选项:
- 一次运行一个,比较所用时间。
- 同时运行它们,比较所用时间。
1 的缺点是,运行第二个时网络可能会更慢/更快。2 的缺点是,一个可以劫持大部分带宽并且似乎工作得更快,而另一个在相同带宽的情况下可以工作得更好。
我不知道如何(如果可能)限制每个进程的带宽(可能还有 cpu 使用率?)。如果我能做到这一点,我会给每个人公平的份额并同时运行它们,这样它就可以工作了。
任何想法如何做到这一点?