我一直在浏览不同的论坛,想知道这是否正确。我试图禁止机器人仅在特定子页面(例如 www.website.com/subpage/?query=sample)中抓取查询。我试图确保 /subpage/ 也不会被禁止。如果我错了,请纠正我。
文件:robots.txt
User-agent: *
Disallow: /subpage/*?
根据我在这里看到的,你很接近
User-agent: *
Disallow: /subpage/*?*
Allow: /subpage$
您可以通过使用适当的附加组件或扩展,在您自己的浏览器中舒适地对此进行测试。
我认为您不能在Disallow
. 您设置的值在文档Disallow
中引用Directory
(而不是URI
or URL
)。
但是,您可以使用Sitemap.xml
. 您可以从站点地图中排除URL
您不想编入索引的站点。
谷歌网站管理员工具还对查询字符串参数的解释方式进行了一定程度的精细控制。不确定这是否符合您的目的