我正在使用 Bing Azure Web Search Api 在元搜索网站上工作。从 2 天开始(一个月没有问题后),我面临避免接收来自恶意机器人的垃圾邮件搜索的问题。他们没有淹没网站,他们以慢速模式查询(1 或 2 次查询/秒)。IP 都是不同的,它们不在任何公共黑名单中,显然我不能将 captha 用于搜索界面!
如何避免这个问题?
一个常见的技巧是设置robots.txt
一个禁区,然后在这个机器人陷阱中加入一些不可见的链接。人类访客不会发现它在那里,行为良好的机器人不会去那里。也许你想给偶尔的访问者带来怀疑的好处,但屡犯者可以在 TCP 级别上被列入黑名单并被拒绝(或者更好的是,将他们提交给http://projecthoneypot.org/)