0

我想知道如何使用 python 在每个域和子域中查找站点地图?一些例子:

abcd.com/sitemap.xml
abcd.com/sitemap.html
abcd.com/sitemap.html
sub.abcd.com/sitemap.xml

等等。

最可能的站点地图名称、位置和扩展名是什么?

4

2 回答 2

1

请先看一下robots.txt文件。这就是我通常做的。

一些域确实提供了不止一个站点地图,并且有超过 200 个 xml 文件的案例。

请记住,根据sitemap.org上的常见问题解答,可以压缩站点地图文件。因此,您可能也需要考虑sitemap.xml.gz

于 2019-10-27T06:53:15.547 回答
0

您应该尝试使用 URLLIB robotsparser

import urllib.robotparser

robots = "branndurl/robots.txt"
    rp = urllib.robotparser.RobotFileParser()
    rp.set_url(robots)
    rp.read()
    rp.site_maps()

这将为您提供 robots.txt 中的所有站点地图

大多数网站都拥有那里的站点地图。

于 2020-10-12T20:52:02.990 回答