我正在使用 robots.txt 从蜘蛛中排除一些页面。
User-agent: *
Disallow: /track.php
当我搜索引用到此页面的内容时,谷歌说:“由于此站点的 robots.txt,此结果的描述不可用 - 了解更多信息。”
这意味着 robots.txt 正在工作.. 但是为什么蜘蛛仍然找到该页面的链接?我想没有指向“track.php”页面的链接......我应该如何设置 robots.txt?(或类似 .htaccess 之类的东西......?)
我正在使用 robots.txt 从蜘蛛中排除一些页面。
User-agent: *
Disallow: /track.php
当我搜索引用到此页面的内容时,谷歌说:“由于此站点的 robots.txt,此结果的描述不可用 - 了解更多信息。”
这意味着 robots.txt 正在工作.. 但是为什么蜘蛛仍然找到该页面的链接?我想没有指向“track.php”页面的链接......我应该如何设置 robots.txt?(或类似 .htaccess 之类的东西......?)
这是发生的事情:
所以 Google 知道 source.html 链接到 track.php,但它不知道 track.php 包含什么。你没有告诉谷歌不要索引 track.php;您告诉 Googlebot 不要读取和索引 track.php 中的数据。
正如谷歌的文档所说:
虽然 Google 不会抓取 robots.txt 阻止的网页内容或将其编入索引,但如果我们在网络上的其他网页上找到这些网址,我们仍可能会将其编入索引。因此,页面的 URL 以及其他公开可用的信息(例如指向该站点的链接中的锚文本或来自 Open Directory Project (www.dmoz.org) 的标题)可能会出现在 Google 搜索结果中。
您对此无能为力。对于您自己的页面,您可以使用该文档中描述的x-robots-tag
或。noindex meta tag
如果 Googlebot 在您的网页中找到链接,这将阻止 Googlebot 将 URL 编入索引。但是,如果您无法控制的某个页面链接到该 track.php 文件,那么 Google 很可能会将其编入索引。