所以我有一个网站http://www.example.com。
JS/CSS/Images 来自 CDN - http://xxxx.cloudfront.net或http://cdn.example.com;它们都是一样的东西。现在 CDN 只提供任何类型的文件,包括我的 PHP 页面。谷歌也不知何故爬上了那个 CDN 网站;实际上有两个站点 - 来自 cdn.example.com 和来自http://xxxx.cloudfront.net。考虑到
- 我没有尝试设置子域或镜像站点。如果发生这种情况,那是我尝试设置 CDN 的副作用。
- CDN 是一些 Web 服务器,不一定是 Apache。我不知道那是什么类型的服务器。
CDN 上没有请求处理。它只是从原始服务器获取东西。我认为,您不能将自定义文件放在 CDN 上;它只是从原始服务器获取东西。您需要放在 CDN 上的任何内容都来自源服务器。
如何防止爬取 PHP 页面?
- 我应该允许从 cdn.example.com 还是从 example.com 抓取图像?HTML 中的图片链接都指向 cdn.example.com。如果我只允许从 example.com 抓取图像,那么实际上没有什么可以抓取的 - 没有指向此类图像的链接。如果我允许从 cdn.example.com 抓取图像,那么它不会泄露 SEO 的好处吗?
根据stackoverflow的答案,我考虑了一些替代方案:
- 编写自定义 robots_cdn.txt 并基于 HTTP_HOST 提供自定义 robots_cdn.txt。这是关于堆栈溢出的许多答案。
- 从子域提供新的 robots.txt。正如我上面解释的,我不认为 CDN 可以被视为子域。
- 当 HTTP_HOST 是 cdn.example.com 到 www.example.com 时做 301 重定向
建议?
与此相关的问题,例如如何禁止使用 robots.txt 的镜像站点(在子域上)?