我编写了一个简单的爬虫程序,他的工作是浏览网站的几个不同页面。做一些解析,调用一些通过 AJAX 调用的 URL,并将数据存储在数据库中。
麻烦的是,有时我的 ip 在我的爬虫执行后被阻止。我可以采取哪些步骤来防止我的 ip 被阻止?有什么推荐的做法吗?我在请求之间添加了 5 秒的间隔,几乎没有效果。该网站是中型的(需要抓取几个 URL),而且我的互联网连接速度很慢,所以脚本运行了一个多小时。使用更快的网络连接(如托管服务)会有帮助吗?
基本上我想编写一个表现良好的机器人。
最后,我不是在发帖或发送垃圾邮件。
编辑:我想我会把我的脚本分成 4-5 个部分,并在一天中的不同时间运行它们。