0

假设我有一个网站的版本:

 http://www.mywebsite.com

我想将站点保留在子目录中并单独处理:

 http://www.mywebsite.com/old/

我的网站在主页上有一个指向网站的链接,但反之亦然。

1) 我应该创建 2 个站点地图吗?一个给的,一个给的?

2)当我的网站被爬取时,如何限制爬虫的路径?换句话说,由于站点有指向站点的链接,爬虫将到达站点。如果我在 robots.txt 中执行以下操作:

 User-agent: *
 Disallow: /old/

我担心它不会抓取网站(使用第二个站点地图),因为它被阻止了。那是对的吗?

4

1 回答 1

1

1) 您可以将所有 URL 包含在一个文件中,也可以创建单独的文件。可以将站点地图理解为“每个(网站)站点”,例如参见http://www.sitemaps.org/

在最简单的形式中,站点地图是一个 XML 文件,其中列出了站点的URL以及有关每个 URL 的附加元数据

由于您现在有两个站点,您可以创建两个站点地图。但同样,我不认为它是这样严格定义的。

2) 好吧,如果您阻止 robots.txt 中的 URL,那么符合要求的机器人将不会访问这些 URL。这并不意味着这些URL永远不会被搜索引擎索引,但页面(= 内容)不会。

于 2013-04-11T17:01:19.037 回答