-1

我正在为 Google 的搜索引擎优化我的网站,最近我注意到在执行“site:www.joemajewski.com”查询时,我得到了根本不应该被索引的页面的结果。

我们来看看这个页面,例如:http ://www.joemajewski.com/wow/profile.php?id=3

我创建了自己的 CMS,这只是用户 ID #3 的统计数据的细分,我注意到它已被 Google 索引,尽管它不应该被索引。我知道 Google 的结果需要一些时间才能准确反映我网站的内容,但该索引已被错误地编入索引近六个月。

以下是我采取的预防措施:

我的robots.txt文件有这样一行:

Disallow: /wow/profile.php*

通过 Google 网站管理员工具运行 url 时,它表明我确实正确地创建了 disallow 命令。但是,它确实指出,如果链接到的页面没有被抓取,它仍可能会显示在搜索结果中。因此,我又采取了一项预防措施。

在源代码中,我包含了以下元数据:

<meta name="robots" content="noindex,follow" />

我假设这follow意味着在计算 PageRank 等时使用该页面,并且noindex告诉 Google不要在搜索结果中显示该页面。

这个页面,profile.php,用于获取$_GET['id'] 并找到对应的注册用户。它显示了有关该用户的一些信息,但相关性不足以保证在搜索结果中显示,所以这就是我试图阻止谷歌索引它的原因。

这不是谷歌索引的唯一一个我想删除的页面。我还有一个 WordPress 博客,有很多类别页面、标签页面和存档页面我想删除,并且正在执行相同的程序来尝试删除它们。

有人可以解释如何从 Google 的搜索结果中删除页面,并且可能有一些标准可以帮助确定我不希望将哪些类型的页面编入索引。就我的 WordPress 博客而言,我真正想要索引的唯一页面是我的文章。我试图阻止的其他一切,谷歌运气不佳。

有人还可以解释为什么将不提供任何新内容或相关内容的页面编入索引是不好的,例如 WordPress 标签或类别的页面,这些页面显然永远不会收到来自 Google 的流量。

谢谢!

4

3 回答 3

2

将您的元机器人指令修改为:

<meta name="robots" content="noindex,noarchive,nosnippet,follow" />
于 2012-02-27T23:12:26.567 回答
0

如果您在 robots.txt 中阻止并测试了 URL,它必须有效。在这里,您无需在特定页面中添加额外的元标记。

我敢肯定,请给 Google 一些时间来抓取您的网站。它应该工作!

要删除 URL,您可以使用 Google 网站管理员工具。(我相信你知道)

于 2013-04-15T06:45:13.860 回答
0

我的 robots 文件阻止了对包含元标记的页面的访问。因此,即使元标记告诉谷歌不要索引我的页面,谷歌也没有做到这一点。

结案。:P

于 2010-06-12T19:45:58.730 回答