java - 是否有标准化的站点地图格式？

Question

我想构建一个抓取一些网站站点地图的网络爬虫。我曾多次遇到这种格式https://developer.mozilla.org/sitemap.xml。我想知道这是标准还是有标准。

如果没有，那么抓取站点地图的最佳方法是什么？一个正则表达式，还是某个库？

score 2 · Accepted Answer

我认为您应该为此使用 DOM API。站点地图格式在那里解释http://www.sitemaps.org/protocol.html

score 1 · Accepted Answer

如果您使用 Java，那么Java Sitemap Parser可能会有所帮助。此处讨论了使用 PHP 解析站点地图。

2 回答 2