0

我有 2 个略有不同的网络爬虫版本。我想比较它们的性能(特别是爬取给定域所花费的时间)。我考虑了这两个选项:

  1. 一次运行一个,比较所用时间。
  2. 同时运行它们,比较所用时间。

1 的缺点是,运行第二个时网络可能会更慢/更快。2 的缺点是,一个可以劫持大部分带宽并且似乎工作得更快,而另一个在相同带宽的情况下可以工作得更好。

我不知道如何(如果可能)限制每个进程的带宽(可能还有 cpu 使用率?)。如果我能做到这一点,我会给每个人公平的份额并同时运行它们,这样它就可以工作了。

任何想法如何做到这一点?

4

1 回答 1

0

选择选项 1 并采集大量样本。运行一个星期,然后运行另一个一周。网络带宽当然会有所不同,但应该平均下来。

另一方面,您可能希望找到一种方法来限制您的爬虫,使其不会消耗您的所有资源。一旦你有了它,选项 2 将成为更好的选择。

于 2012-09-15T14:21:16.647 回答