我有一个站点地图,上面有大约 21 个网址,每个网址都包含大约 2000 个网址。我正在尝试编写一些东西,让我能够解析每个原始 21 个 url 并获取它们包含的 2000 个 url,然后将其附加到列表中。
几天来,我一直在用头撞墙,试图让它发挥作用,但它一直返回“无”列表。我现在只使用 python 大约 3 周,所以我可能会遗漏一些非常明显的东西。任何帮助都会很棒!
storage = []
storage1 = []
for x in range(21):
url = 'first part of the url' + str(x) + '.xml'
storage.append(url)
def parser(any):
tree = ET.parse(urlopen(any))
root = tree.getroot()
for i in range(len(storage)):
x = (root[i][0]).text
storage1.append(x)
storage2 = [parser(x) for x in storage]
我还尝试使用带计数器的 while 循环,但它总是在前 2000 个 url 之后停止。