2

我很好奇是否有人对利用 PHP/CURL(或其他技术)从网站下载内容的最佳方法有任何建议。现在我正在使用 curl_multi 一次执行 10 个请求,这对一些人有帮助。

我确实需要每天请求大约 100K 页,这可能会有点乏味(现在需要 16 个小时)。我最初的想法只是设置多个虚拟机并拆分任务,但想知道除了并行化之外我是否还缺少其他东西。(我知道你总是可以在这个问题上扔更多的机器嘿)

提前致谢!

4

2 回答 2

2

这取决于您对内容的处理方式,但请尝试使用排队系统。

我建议Resque。它使用 Redis 来处理队列。它专为同时速度和多个请求而设计。它还有一个resque-web选项可以提供一个不错的托管 UI。

您可以使用一台机器将新 URL 排队,然后您可以让一台或多台机器处理队列。

其他选项:KestrelRabbitMQBeanstalkd

于 2013-03-08T21:54:05.657 回答
0

要检索 Web 内容,您可以使用 curl 或 fsockopen。可以在 fsockopen 和 curl 之间哪种方法更好?.

于 2013-03-08T21:55:09.540 回答