我正在从各种网络服务器下载完整的静态图像内容目录(超过百万张图像,全部合法)。
我想有效地下载图像,但我正在考虑每个域我应该对并发连接数和连接尝试之间的时间设置什么限制,以避免被 DOS 工具和其他限制器列入黑名单。
我正在从各种网络服务器下载完整的静态图像内容目录(超过百万张图像,全部合法)。
我想有效地下载图像,但我正在考虑每个域我应该对并发连接数和连接尝试之间的时间设置什么限制,以避免被 DOS 工具和其他限制器列入黑名单。
我需要寻找的关键字是“webcrawler politness”,它弹出了一些有用的文章,很好地回答了这个问题:
http://blog.mischel.com/2011/12/20/writing-a-web-crawler-politeness/