Disallow: /*“http:
是我一直在使用的 - 我的猜测是我可能需要以某种方式转义引号。在 Google 网站管理员工具中,它甚至不会读取该引号(它允许您查看 robots.txt 文件并在几个 url 上对其进行测试)。
在 Google 网站管理员工具上,它会显示 robots.txt 文件,但此行不带引号。
Disallow: /*http:
任何建议,将不胜感激。
主要问题是脚本格式不正确,并且该站点存在爬网错误:
http://www.domain.com/“http://www.domain.com/directory/directory/dir_ectory/dir_ectory/pagetitle"
是我们收到抓取错误的页面之一的示例。我的假设是修复 robots.txt 页面将阻止这些页面出现在网站管理员工具中的抓取错误中。