python - python正则表达式找不到所有图像文件

Question

我正在尝试使用 re.compile 来获取网页中的所有图像文件

title=re.compile("<img src='(.*)jpg'")

但它无法捕捉到所有以“jpg”结尾的香味，它在一个包含许多图像的网络中只有 3 个非常长的字符串（许多链接以 jpg 结尾），有人可以帮我解决这个问题。提前致谢

score 1 · Accepted Answer

你的表情太贪心了。统治它：

re.compile("<img src='([^']*)jpg'")

但是，更好的方法是使用适当的 HTML 解析器，例如BeautifulSoup：

for image in soup.find_all('img', src=True):
    print image['src']

<img />例如，查找具有src属性的所有标签。

1 回答 1