1

所以我有一个网站http://www.example.com

JS/CSS/Images 来自 CDN - http://xxxx.cloudfront.nethttp://cdn.example.com;它们都是一样的东西。现在 CDN 只提供任何类型的文件,包括我的 PHP 页面。谷歌也不知何故爬上了那个 CDN 网站;实际上有两个站点 - 来自 cdn.example.com 和来自http://xxxx.cloudfront.net。考虑到

  1. 我没有尝试设置子域或镜像站点。如果发生这种情况,那是我尝试设置 CDN 的副作用。
  2. CDN 是一些 Web 服务器,不一定是 Apache。我不知道那是什么类型的服务器。
  3. CDN 上没有请求处理。它只是从原始服务器获取东西。我认为,您不能将自定义文件放在 CDN 上;它只是从原始服务器获取东西。您需要放在 CDN 上的任何内容都来自源服务器。

  4. 如何防止爬取 PHP 页面?

  5. 我应该允许从 cdn.example.com 还是从 example.com 抓取图像?HTML 中的图片链接都指向 cdn.example.com。如果我只允许从 example.com 抓取图像,那么实际上没有什么可以抓取的 - 没有指向此类图像的链接。如果我允许从 cdn.example.com 抓取图像,那么它不会泄露 SEO 的好处吗?

根据stackoverflow的答案,我考虑了一些替代方案:

  1. 编写自定义 robots_cdn.txt 并基于 HTTP_HOST 提供自定义 robots_cdn.txt。这是关于堆栈溢出的许多答案。
  2. 从子域提供新的 robots.txt。正如我上面解释的,我不认为 CDN 可以被视为子域。
  3. 当 HTTP_HOST 是 cdn.example.com 到 www.example.com 时做 301 重定向

建议?

与此相关的问题,例如如何禁止使用 robots.txt 的镜像站点(在子域上)?

4

1 回答 1

0

您可以将 robots.txt 放在根目录中,以便与 cdn.-yourdomain-.com/robots.txt 一起提供服务。在此 robots.txt 中,您可以使用以下设置禁止所有爬虫

User-agent: *
Disallow: /
于 2015-12-23T11:23:31.617 回答