我想构建一个抓取一些网站站点地图的网络爬虫。我曾多次遇到这种格式https://developer.mozilla.org/sitemap.xml。我想知道这是标准还是有标准。
如果没有,那么抓取站点地图的最佳方法是什么?一个正则表达式,还是某个库?
我想构建一个抓取一些网站站点地图的网络爬虫。我曾多次遇到这种格式https://developer.mozilla.org/sitemap.xml。我想知道这是标准还是有标准。
如果没有,那么抓取站点地图的最佳方法是什么?一个正则表达式,还是某个库?
我认为您应该为此使用 DOM API。站点地图格式在那里解释http://www.sitemaps.org/protocol.html
如果您使用 Java,那么Java Sitemap Parser可能会有所帮助。此处讨论了使用 PHP 解析站点地图。