1

我正在维护网站http://www.totalworkflow.co.uk并且不确定 HTTrack 是否遵循 robots.txt 文件中给出的说明。如果有任何答案可以让我们让 HTTrack 远离网站,请建议我使用它来实现,或者只告诉机器人名称,这样我就可以阻止这个垃圾爬取我的网站。如果 robots.txt 无法做到这一点,请推荐是否有其他方法可以让该机器人远离网站?


您是对的,垃圾邮件爬虫没有必要遵循 robots.txt 文件中给出的指南。我知道 robots.txt 仅适用于正版搜索引擎。但是,如果开发人员对该应用程序进行硬编码以不跳过 robots.txt 指南(如果提供),则应用程序 HTTrack 可能看起来是真实的。如果提供了此选项,那么该应用程序对于预期目的将非常有用。好的,让我们来看看我的问题,实际上我想找到的解决方案是让 HTTrack 爬虫远离 Web 服务器上的任何硬编码。我尝试首先在网站管理员级别解决这个问题。但是,您的想法非常适合将来考虑。谢谢

4

1 回答 1

1

它应该遵守 robots.txt,但 robots.txt 是您不必遵守的东西(实际上,找到您不希望其他人看到的垃圾邮件机器人是一件非常好的事情)所以有什么保证(即使它现在服从机器人)在未来的某个时候不会有忽略所有 robots.txt 和元标记的选项?我认为更好的方法是配置您的服务器端应用程序以检测和阻止用户代理。用户代理字符串有可能在爬虫的源代码中某处被硬编码,用户将无法更改它以阻止您阻止该爬虫。您所要做的就是编写一个服务器脚本来吐出用户代理信息(或检查服务器日志),然后根据这些信息创建阻止规则。或者,您可以在 Google 上搜索已知的“列表”

被用户代理或空引用者阻止

于 2012-11-08T07:53:48.877 回答