3

我正在使用 robots.txt 从蜘蛛中排除一些页面。

User-agent: * 
Disallow: /track.php

当我搜索引用到此页面的内容时,谷歌说:“由于此站点的 robots.txt,此结果的描述不可用 - 了解更多信息。”

这意味着 robots.txt 正在工作.. 但是为什么蜘蛛仍然找到该页面的链接?我想没有指向“track.php”页面的链接......我应该如何设置 robots.txt?(或类似 .htaccess 之类的东西......?)

4

1 回答 1

5

这是发生的事情:

  • Googlebot 在其他页面上看到了 track.php 的链接。我们称该页面为“source.html”。
  • Googlebot 试图访问您的 track.php 文件。
  • 您的 robots.txt 告诉 Googlebot 不要读取该文件。

所以 Google 知道 source.html 链接到 track.php,但它不知道 track.php 包含什么。你没有告诉谷歌不要索引 track.php;您告诉 Googlebot 不要读取和索引 track.php 中的数据

正如谷歌的文档所说

虽然 Google 不会抓取 robots.txt 阻止的网页内容或将其编入索引,但如果我们在网络上的其他网页上找到这些网址,我们仍可能会将其编入索引。因此,页面的 URL 以及其他公开可用的信息(例如指向该站点的链接中的锚文本或来自 Open Directory Project (www.dmoz.org) 的标题)可能会出现在 Google 搜索结果中。

您对此无能为力。对于您自己的页面,您可以使用该文档中描述的x-robots-tag或。noindex meta tag如果 Googlebot 在您的网页中找到链接,这将阻止 Googlebot 将 URL 编入索引。但是,如果您无法控制的某个页面链接到该 track.php 文件,那么 Google 很可能会将其编入索引。

于 2013-11-07T15:41:14.137 回答