我正在为 Google 的搜索引擎优化我的网站,最近我注意到在执行“site:www.joemajewski.com”查询时,我得到了根本不应该被索引的页面的结果。
我们来看看这个页面,例如:http ://www.joemajewski.com/wow/profile.php?id=3
我创建了自己的 CMS,这只是用户 ID #3 的统计数据的细分,我注意到它已被 Google 索引,尽管它不应该被索引。我知道 Google 的结果需要一些时间才能准确反映我网站的内容,但该索引已被错误地编入索引近六个月。
以下是我采取的预防措施:
我的robots.txt
文件有这样一行:
Disallow: /wow/profile.php*
通过 Google 网站管理员工具运行 url 时,它表明我确实正确地创建了 disallow 命令。但是,它确实指出,如果链接到的页面没有被抓取,它仍可能会显示在搜索结果中。因此,我又采取了一项预防措施。
在源代码中,我包含了以下元数据:
<meta name="robots" content="noindex,follow" />
我假设这follow
意味着在计算 PageRank 等时使用该页面,并且noindex
告诉 Google不要在搜索结果中显示该页面。
这个页面,profile.php,用于获取$_GET['id'] 并找到对应的注册用户。它显示了有关该用户的一些信息,但相关性不足以保证在搜索结果中显示,所以这就是我试图阻止谷歌索引它的原因。
这不是谷歌索引的唯一一个我想删除的页面。我还有一个 WordPress 博客,有很多类别页面、标签页面和存档页面我想删除,并且正在执行相同的程序来尝试删除它们。
有人可以解释如何从 Google 的搜索结果中删除页面,并且可能有一些标准可以帮助确定我不希望将哪些类型的页面编入索引。就我的 WordPress 博客而言,我真正想要索引的唯一页面是我的文章。我试图阻止的其他一切,谷歌运气不佳。
有人还可以解释为什么将不提供任何新内容或相关内容的页面编入索引是不好的,例如 WordPress 标签或类别的页面,这些页面显然永远不会收到来自 Google 的流量。
谢谢!