我正在维护网站http://www.totalworkflow.co.uk并且不确定 HTTrack 是否遵循 robots.txt 文件中给出的说明。如果有任何答案可以让我们让 HTTrack 远离网站,请建议我使用它来实现,或者只告诉机器人名称,这样我就可以阻止这个垃圾爬取我的网站。如果 robots.txt 无法做到这一点,请推荐是否有其他方法可以让该机器人远离网站?
您是对的,垃圾邮件爬虫没有必要遵循 robots.txt 文件中给出的指南。我知道 robots.txt 仅适用于正版搜索引擎。但是,如果开发人员对该应用程序进行硬编码以不跳过 robots.txt 指南(如果提供),则应用程序 HTTrack 可能看起来是真实的。如果提供了此选项,那么该应用程序对于预期目的将非常有用。好的,让我们来看看我的问题,实际上我想找到的解决方案是让 HTTrack 爬虫远离 Web 服务器上的任何硬编码。我尝试首先在网站管理员级别解决这个问题。但是,您的想法非常适合将来考虑。谢谢