我试图从一个非常长的 html 文件中挑选出图像的 url。该文件看起来像这样:
...Lots_of_html><a href=somelink.com>Human Readable Text</a><img src="http://image.com">....
我想从上面的 html 中挑选出http://image.com,我试过以下没有运气:
sed -n ‘s%.*src=%%;s%\".*%%p’ image_urls.txt
sed -n ‘s%.*src=%%;s%\".*%%p’ image_urls.txt
import re
rex = re.compile(r'src=.(.*?)>',re.S|re.M)
data="<long html string>"
match = rex.match(data)
我在正则表达式方面没有太多经验,所以我想上面有一些基本错误。如果有任何帮助,我将不胜感激,但特别是我想让其中一个 sed 命令正常工作,以便轻松集成到 bash 脚本中。
提前致谢。