2

我正在尝试向 robots.txt 文件添加拒绝规则,以拒绝访问单个页面。

网站 URL 的工作方式如下:

然后,Javascript 根据 URL 换出显示的 DIV。

我将如何请求搜索引擎蜘蛛不列出以下内容:

提前致谢

4

2 回答 2

3

你不能(本身)。搜索引擎无论如何都不会运行 JavaScript,因此通常会忽略片段标识符。您只能拒绝从服务器请求的 URL(没有片段标识符)。

Google 会将 hashbang 映射到不同的 URI上,你可以弄清楚它们是什么(你应该已经这样做了,因为那是使用 hash bang 的重点)并将它们放在 robots.txt 中。

然而,Hash bang充其量是有问题的,所以我会放弃它们,转而使用允许您使用健全 URI的历史 API 。

于 2013-06-07T15:30:59.960 回答
1

您实际上可以通过多种方式执行此操作,但这里有两种最简单的方法。

您必须排除 Googlebot 将要获取的 URL,这不是 AJAX hashbang 值,而是翻译后的?_escaped_fragment_=key=value

在您的 robots.txt 文件中指定:

Disallow: /?_escaped_fragment_=/super-secret
Disallow: /index.php?_escaped_fragment_=/super-secret

如有疑问,您应始终使用 Google 网站管理员工具 »“ Fetch As Googlebot ”。

如果该网页已被 Googlebot 编入索引,则使用 robots.txt 文件不会将其从索引中删除。应用 robots.txt 后,您必须使用 Google 网站管理员工具 URL 删除工具,或者您可以通过标签或在 HTTP 标头中noindex向页面添加命令。<meta>X-Robots-Tag

它看起来像:

<meta name="ROBOTS" content="NOINDEX, NOFOLLOW" />

或者

X-Robots-Tag: noindex
于 2013-06-10T05:34:06.680 回答