0

我想使用python从html代码的img标签中检测图像的src属性。我认为正则表达式可以完成这项工作。我创建了一个正则表达式

\<img .*src="(.*)".*/\>

但是有很多可能的方式来使用 img 标签,例如

<img src="images/first.png" alt="" />
<img src="images/first.png" alt="">
<img  alt="" src="images/first.png" />
<img  alt="" width="100" src="images/first.png" height="200">

所以我的问题是,上述正则表达式是否足以完成任务?任何人都可以提供更好的选择吗?

4

2 回答 2

2

改用 HTML 解析器,Python 有几个可供选择:

元素树示例:

from xml.etree import ElementTree

tree = ElementTree.parse('filename.html')
for elem in tree.findall('img'):
    print elem['src']
于 2012-11-01T16:12:41.973 回答
0

你可以使用漂亮的库 BeautifulSoup

于 2012-11-01T16:06:30.300 回答