url - 如何防止 Google 将 URL 中的会话 ID 编入索引？

Question

我的网站之一是用于不接受 cookie 的旧手机，因此它使用基于 URL 的会话 ID。

但是，Google 正在为 Session ID 编制索引，所以当我在 Google 上搜索我的网站时，所有结果都会出现一个特定的 Session ID。

在大多数情况下，当客人点击该会话 ID 时，它不再有效，但我至少有一个案例，客人点击了来自 Google 的链接，它实际上将他们登录到其他人的帐户，即显然是一个巨大的安全漏洞。

那么，我怎样才能让 Google 不将我的 URL 中的会话 ID 编入索引呢？如果有帮助，会话 ID在 Google 的网站管理员工具中始终设置为“代表 URL ”。

score 0 · Accepted Answer

为此，您可以在您的网络根目录中放置一个 robots.txt 文件，告诉 Googlebot 和所有其他抓取工具不要抓取具有该属性的网址。

这是一个例子：

假设您要阻止的 URL 采用以下形式：

http://www.mywebsite.com/page.html?id=1234

用于阻止具有 id 属性的 URL 的 robots.txt 语法是：

User-agent: *
Disallow: /*id

您可以在http://www.robotstxt.org找到有关 robots.txt 的更多信息

score 0 · Accepted Answer

看看这个，https://developers.google.com/search/docs/advanced/crawling/consolidate-duplicate-urls，你可以设置规范的url，google-bot会使用这个url来抓取你的网页，这也可以解决同一网页的重复 url 问题。

2 回答 2