以下是我的代码。它试图在 html 中的图像标签中获取图像的 src。
import re
for text in open('site.html'):
matches = re.findall(r'\ssrc="([^"]+)"', text)
matches = ' '.join(matches)
print(matches)
问题是当我输入类似的东西时:
<img src="asdfasdf">
它可以工作,但是当我放入整个 HTML 页面时,它什么也没有返回。为什么这样做?我该如何解决?
Site.html 只是标准格式的网站的 html 代码。我希望它忽略所有内容,只打印图像的源代码。如果您想查看 site.html 中的内容,请转到基本 HTML 网页并复制所有源代码。