java - 我可以阻止蜘蛛访问带有某些 GET 参数的页面吗？

Question

我们有一个可以选择将 ID 作为 GET 参数的页面。如果提供的 ID 无效，该页面会抛出错误并发出通知，告知某人正在错误地访问该页面。火上浇油的是，ID 可以有效一段时间，然后过期。

我们遇到了一个问题，搜索引擎机器人使用旧的、过期的 ID 访问页面。这意味着每次我们被蜘蛛攻击时都会收到一堆“误报”警报。我很想有一些方法告诉机器人继续抓取页面，但不使用 GET 参数——只需索引无参数页面。这甚至可以通过 robots.txt 文件或类似文件远程实现吗？

注意：我知道解决这个问题的最好方法是改变页面的行为，事实上，这会在几周内发生。我只是在此期间寻找解决方案。

score 1 · Accepted Answer

您可以使用 robots.txt 中的以下内容建议蜘蛛程序忽略您 URL 的某些部分：

User-agent: *
Disallow: *id=

编辑澄清：这将导致蜘蛛忽略 GET 字符串中带有 id=blah 的任何 URL——它不会神奇地“剥离” id= 部分。但是，这实际上是您想要的，因为没有“?id=”参数的普通 URL 返回您想要索引的数据。

score 1 · Accepted Answer

在检查 _GET 的 if 语句中，放置以下 HTML：

<meta name="robots" content="noindex, nofollow">
<meta name="googlebot" content="noindex, nofollow">

2 回答 2