0

以下文字来自sitemaps.org。与爬虫完成工作相比,这样做有什么好处?

站点地图是网站管理员通知搜索引擎有关其网站上可供抓取的页面的一种简便方法。在最简单的形式中,站点地图是一个 XML 文件,其中列出了站点的 URL 以及有关每个 URL 的附加元数据(上次更新时间、更改频率以及相对于站点中其他 URL 的重要性) ) 以便搜索引擎可以更智能地抓取网站。

编辑 1:我希望获得足够的好处,以便我可以证明该功能的开发是合理的。目前我们的系统没有动态提供站点地图,所以我们必须用爬虫创建一个,这不是一个很好的过程。

4

3 回答 3

1

爬虫也很“懒惰”,所以如果你给他们一个包含所有网站 URL 的站点地图,他们更有可能索引你网站上的更多页面。

它们还使您能够确定页面的优先级,以便爬虫了解它们的更改频率、哪些更重要以保持更新等,这样他们就不会浪费时间爬取未更改的页面、丢失的页面,或索引您不太关心的页面(以及您所做的缺失页面)。

还有很多在线自动化 工具,您可以使用它们来抓取整个站点并生成站点地图。如果您的网站不是太大(少于几千个网址),那么它们会很好用。

于 2009-08-28T17:43:55.310 回答
0

好吧,就像那段说的那样,站点地图还提供有关给定 url 的元数据,爬虫可能无法纯粹通过爬取来推断。站点地图充当爬虫的目录,以便它可以优先考虑内容并索引重要的内容。

于 2009-08-28T17:34:35.687 回答
0

站点地图有助于告诉爬虫哪些页面更重要,以及它们应该多久更新一次。这是仅通过扫描页面本身无法找到的信息。

Crawlers have a limit to how many pages the scan of your site, and how many levels deep they follow links. If you have a lot of less relevant pages, a lot of different URLs to the same page, or pages that need many steps to get to, the crawler will stop before it comes to the most interresting pages. The site map offers an alternative way to easily find the most interresting pages, without having to follow links and sorting out duplicates.

于 2009-08-28T18:46:33.110 回答