1

我想构建一个抓取一些网站站点地图的网络爬虫。我曾多次遇到这种格式https://developer.mozilla.org/sitemap.xml。我想知道这是标准还是有标准。

如果没有,那么抓取站点地图的最佳方法是什么?一个正则表达式,还是某个库?

4

2 回答 2

2

我认为您应该为此使用 DOM API。站点地图格式在那里解释http://www.sitemaps.org/protocol.html

于 2013-02-21T12:54:08.820 回答
1

如果您使用 Java,那么Java Sitemap Parser可能会有所帮助。此处讨论了使用 PHP 解析站点地图。

于 2013-02-21T14:12:14.243 回答