4

我们有一个可以选择将 ID 作为 GET 参数的页面。如果提供的 ID 无效,该页面会抛出错误并发出通知,告知某人正在错误地访问该页面。火上浇油的是,ID 可以有效一段时间,然后过期。

我们遇到了一个问题,搜索引擎机器人使用旧的、过期的 ID 访问页面。这意味着每次我们被蜘蛛攻击时都会收到一堆“误报”警报。我很想有一些方法告诉机器人继续抓取页面,但不使用 GET 参数——只需索引无参数页面。这甚至可以通过 robots.txt 文件或类似文件远程实现吗?


注意:我知道解决这个问题的最好方法是改变页面的行为,事实上,这会在几周内发生。我只是在此期间寻找解决方案。

4

2 回答 2

1

您可以使用 robots.txt 中的以下内容建议蜘蛛程序忽略您 URL 的某些部分:

User-agent: *
Disallow: *id=

编辑澄清:这将导致蜘蛛忽略 GET 字符串中带有 id=blah 的任何 URL——它不会神奇地“剥离” id= 部分。但是,这实际上是您想要的,因为没有“?id=”参数的普通 URL 返回您想要索引的数据。

于 2011-05-26T16:09:05.310 回答
1

在检查 _GET 的 if 语句中,放置以下 HTML:

<meta name="robots" content="noindex, nofollow">
<meta name="googlebot" content="noindex, nofollow">
于 2011-05-26T16:04:28.300 回答