我正在浏览一个 HTML 页面,我想提取 img srcs 和 a hrefs。
在特定站点上,所有这些都用双引号括起来。
我尝试了各种各样的正则表达式,但都没有成功。假设双引号内的字符为 [-\w/](可打印字符 [a-zA-Z\d-_] 和 / 和 .)
在蟒蛇中:
re.search(r'img\s+src="(?P<src>[\w-/]+_"', line)
不返回任何东西,但是
re.search(r'img\s+src="(?P[-\w[/]]+)"', line)
返回方式非常多(即,不会停在 " )。
我需要帮助创建正确的正则表达式。提前致谢!