我又遇到了一个奇怪的问题:
我正在编写一个爬虫来索引一个特定的站点。几个星期以来,它运行良好,我只是在每小时发送太多请求时遇到问题。
但是现在我什至无法访问单个页面。
但更奇怪的是:我必须通过 POST 提交一些表单值,但服务器返回 404 错误——尽管 URL 绝对正确。
我实施了许多技术来防止beeing被识别为机器人:更改用户代理、延迟,并且我正在发送一个Referer-header来假装表单是从他们自己的网站提交的。
这可能再次成为他们服务器上的垃圾邮件或 DDOS 保护吗?还是有其他可能的错误来源?