amazon-s3 - 如何阻止 google-bot 索引我的 s3 存储桶中的文件夹？

Question

我有一个带有静态网站托管设置 + 云端的亚马逊 s3 存储桶。我在 s3 存储桶 [example.com/Books] 中有一个文件夹，其中包含 pdf 文件。我已经在 google 搜索控制台 [不包含任何 pdf url] 中提交了站点地图，但 google 正在搜索结果中索引 pdf 文件。

在搜索控制台中，我添加了一个从搜索结果中删除所有带有前缀 [example.com/Books/*] 的 url 的请求，以便立即删除。我搜索了如何停止索引文件和文件夹，发现我必须添加“X-Robots-Tag: noindex”作为 http 标头元数据。如何将其添加到 s3 存储桶？我已将自定义元数据添加到文件夹 'Books' x-amz-meta-X-Robots-Tag: noindex。

我已经阅读了许多帖子，其中写到我不应该阻止机器人使用 Robots.txt 访问该文件夹，因为它不会告诉搜索引擎我已添加到该文件夹的“noindex” http 标头。现在要做什么？

score 0 · Accepted Answer

您可以使用 robots.txt 它适用于所有搜索引擎机器人。

robots.txt使用与我给出的完全相同的文件名。

User-agent: *
Disallow: /foldername/

score 0 · Accepted Answer

在通过 CloudFront URL 访问这些文件时，我必须使用 Lambda@Edge 函数来编辑这些原始响应标头。[您已连接到 CloudFront 分配的自定义域]。从响应 HTTP 标头中，我们必须x-amz-meta-header-从用户定义的标头的 'keyname' 中删除，因此爬虫在访问这些文件并遵循其协议时会发现 X-Robots-Tag: noindex 作为 HTTP 标头。更多信息可在此处获得

amazon-s3 - 如何阻止 google-bot 索引我的 s3 存储桶中的文件夹？

2 回答 2

Related

Reference