apache - 禁止抓取 CDN 站点

Question

所以我有一个网站http://www.example.com。

JS/CSS/Images 来自 CDN - http://xxxx.cloudfront.net或http://cdn.example.com；它们都是一样的东西。现在 CDN 只提供任何类型的文件，包括我的 PHP 页面。谷歌也不知何故爬上了那个 CDN 网站；实际上有两个站点 - 来自 cdn.example.com 和来自http://xxxx.cloudfront.net。考虑到

我没有尝试设置子域或镜像站点。如果发生这种情况，那是我尝试设置 CDN 的副作用。
CDN 是一些 Web 服务器，不一定是 Apache。我不知道那是什么类型的服务器。
CDN 上没有请求处理。它只是从原始服务器获取东西。我认为，您不能将自定义文件放在 CDN 上；它只是从原始服务器获取东西。您需要放在 CDN 上的任何内容都来自源服务器。
如何防止爬取 PHP 页面？
我应该允许从 cdn.example.com 还是从 example.com 抓取图像？HTML 中的图片链接都指向 cdn.example.com。如果我只允许从 example.com 抓取图像，那么实际上没有什么可以抓取的 - 没有指向此类图像的链接。如果我允许从 cdn.example.com 抓取图像，那么它不会泄露 SEO 的好处吗？

根据stackoverflow的答案，我考虑了一些替代方案：

编写自定义 robots_cdn.txt 并基于 HTTP_HOST 提供自定义 robots_cdn.txt。这是关于堆栈溢出的许多答案。
从子域提供新的 robots.txt。正如我上面解释的，我不认为 CDN 可以被视为子域。
当 HTTP_HOST 是 cdn.example.com 到 www.example.com 时做 301 重定向

建议？

与此相关的问题，例如如何禁止使用 robots.txt 的镜像站点（在子域上）？

score 0 · Accepted Answer

您可以将 robots.txt 放在根目录中，以便与 cdn.-yourdomain-.com/robots.txt 一起提供服务。在此 robots.txt 中，您可以使用以下设置禁止所有爬虫

User-agent: *
Disallow: /

apache - 禁止抓取 CDN 站点

1 回答 1

Related

Reference