我正在尝试使用 re.compile 来获取网页中的所有图像文件
title=re.compile("<img src='(.*)jpg'")
但它无法捕捉到所有以“jpg”结尾的香味,它在一个包含许多图像的网络中只有 3 个非常长的字符串(许多链接以 jpg 结尾),有人可以帮我解决这个问题。提前致谢
我正在尝试使用 re.compile 来获取网页中的所有图像文件
title=re.compile("<img src='(.*)jpg'")
但它无法捕捉到所有以“jpg”结尾的香味,它在一个包含许多图像的网络中只有 3 个非常长的字符串(许多链接以 jpg 结尾),有人可以帮我解决这个问题。提前致谢
你的表情太贪心了。统治它:
re.compile("<img src='([^']*)jpg'")
但是,更好的方法是使用适当的 HTML 解析器,例如BeautifulSoup:
for image in soup.find_all('img', src=True):
print image['src']
<img />
例如,查找具有src
属性的所有标签。