.htaccess - 为什么 google 会发现 robots.txt 排除的页面？

Question

我正在使用 robots.txt 从蜘蛛中排除一些页面。

User-agent: * 
Disallow: /track.php

当我搜索引用到此页面的内容时，谷歌说：“由于此站点的 robots.txt，此结果的描述不可用 - 了解更多信息。”

这意味着 robots.txt 正在工作.. 但是为什么蜘蛛仍然找到该页面的链接？我想没有指向“track.php”页面的链接......我应该如何设置 robots.txt？（或类似 .htaccess 之类的东西......？）

score 5 · Accepted Answer

这是发生的事情：

Googlebot 在其他页面上看到了 track.php 的链接。我们称该页面为“source.html”。
Googlebot 试图访问您的 track.php 文件。
您的 robots.txt 告诉 Googlebot 不要读取该文件。

所以 Google 知道 source.html 链接到 track.php，但它不知道 track.php 包含什么。你没有告诉谷歌不要索引 track.php；您告诉 Googlebot 不要读取和索引 track.php 中的数据。

正如谷歌的文档所说：

虽然 Google 不会抓取 robots.txt 阻止的网页内容或将其编入索引，但如果我们在网络上的其他网页上找到这些网址，我们仍可能会将其编入索引。因此，页面的 URL 以及其他公开可用的信息（例如指向该站点的链接中的锚文本或来自 Open Directory Project (www.dmoz.org) 的标题）可能会出现在 Google 搜索结果中。

您对此无能为力。对于您自己的页面，您可以使用该文档中描述的x-robots-tag或。noindex meta tag如果 Googlebot 在您的网页中找到链接，这将阻止 Googlebot 将 URL 编入索引。但是，如果您无法控制的某个页面链接到该 track.php 文件，那么 Google 很可能会将其编入索引。

.htaccess - 为什么 google 会发现 robots.txt 排除的页面？

1 回答 1

Related

Reference