Facebook 是否只是实施了一些网络爬虫?在过去的几天里,我的网站已经崩溃了几次,被我追溯到 Facebook 的 IP 严重超载。
我试过谷歌搜索,但找不到任何关于通过 robots.txt 控制 Facebook 爬虫机器人的明确资源。有一个关于添加以下内容的参考:
用户代理:facebookexternalhit/1.1 抓取延迟:5
用户代理:facebookexternalhit/1.0 抓取延迟:5
用户代理:facebookexternalhit/* 抓取延迟:5
但我找不到任何关于 Facebook 机器人是否尊重 robots.txt 的具体参考。根据较早的消息来源,Facebook“不会抓取您的网站”。但这绝对是错误的,因为我的服务器日志显示他们以每秒许多页面的速度从 69.171.237.0/24 和 69.171.229.115/24 范围内的十几个 IP 爬取我的网站。
我找不到任何关于这方面的文献。我怀疑这是 FB 在过去几天刚刚实施的新东西,因为我的服务器以前从未崩溃过。
有人可以请教吗?