我想知道如何使用 python 在每个域和子域中查找站点地图?一些例子:
abcd.com/sitemap.xml
abcd.com/sitemap.html
abcd.com/sitemap.html
sub.abcd.com/sitemap.xml
等等。
最可能的站点地图名称、位置和扩展名是什么?
我想知道如何使用 python 在每个域和子域中查找站点地图?一些例子:
abcd.com/sitemap.xml
abcd.com/sitemap.html
abcd.com/sitemap.html
sub.abcd.com/sitemap.xml
等等。
最可能的站点地图名称、位置和扩展名是什么?
请先看一下robots.txt
文件。这就是我通常做的。
一些域确实提供了不止一个站点地图,并且有超过 200 个 xml 文件的案例。
请记住,根据sitemap.org上的常见问题解答,可以压缩站点地图文件。因此,您可能也需要考虑sitemap.xml.gz
!
您应该尝试使用 URLLIB robotsparser
import urllib.robotparser
robots = "branndurl/robots.txt"
rp = urllib.robotparser.RobotFileParser()
rp.set_url(robots)
rp.read()
rp.site_maps()
这将为您提供 robots.txt 中的所有站点地图
大多数网站都拥有那里的站点地图。