javascript - Robots.txt 拒绝，为 #! 网址

Question

我正在尝试向 robots.txt 文件添加拒绝规则，以拒绝访问单个页面。

网站 URL 的工作方式如下：

然后，Javascript 根据 URL 换出显示的 DIV。

我将如何请求搜索引擎蜘蛛不列出以下内容：

提前致谢

score 3 · Accepted Answer

你不能（本身）。搜索引擎无论如何都不会运行 JavaScript，因此通常会忽略片段标识符。您只能拒绝从服务器请求的 URL（没有片段标识符）。

Google 会将 hashbang 映射到不同的 URI上，你可以弄清楚它们是什么（你应该已经这样做了，因为那是使用 hash bang 的重点）并将它们放在 robots.txt 中。

然而，Hash bang充其量是有问题的，所以我会放弃它们，转而使用允许您使用健全 URI的历史 API 。

score 1 · Accepted Answer

您实际上可以通过多种方式执行此操作，但这里有两种最简单的方法。

您必须排除 Googlebot 将要获取的 URL，这不是 AJAX hashbang 值，而是翻译后的?_escaped_fragment_=key=value

在您的 robots.txt 文件中指定：

Disallow: /?_escaped_fragment_=/super-secret
Disallow: /index.php?_escaped_fragment_=/super-secret

如有疑问，您应始终使用 Google 网站管理员工具 »“ Fetch As Googlebot ”。

如果该网页已被 Googlebot 编入索引，则使用 robots.txt 文件不会将其从索引中删除。应用 robots.txt 后，您必须使用 Google 网站管理员工具 URL 删除工具，或者您可以通过标签或在 HTTP 标头中noindex向页面添加命令。<meta>X-Robots-Tag

它看起来像：

<meta name="ROBOTS" content="NOINDEX, NOFOLLOW" />

或者

X-Robots-Tag: noindex

javascript - Robots.txt 拒绝，为 #! 网址

2 回答 2

Related

Reference