我有一个大约 56,000 个 xml 文档的列表,每个文档都需要打开并提取一个属性,并根据另一个列表(csv 文件)验证属性值
目前我正在使用它,它适用于一个 xml 文档
soup = BeautifulSoup(xmlText)
nameTag = soup.find('instrument', {"name": True})
idTag = soup.find('instrument', {"id": True})
print(idTag['id'] + "," + nameTag['name'])
这给了我项目的 ID 和名称,然后我可以将其与我的其他列表进行比较。但是对于 56,000 份这样的文件,处理这个问题的最佳方法是什么?我需要下载每个文档,然后将其加载到 BeautifulSoup 中并提取名称和 ID。我可以在一个简单的 for 循环中完成所有这些吗?
提前非常感谢。