3

我需要从 html 文件中找到并提取图像源。例如,它可能包含:

<image class="logo" src="http://example.site/logo.jpg">

或者

<img src="http://another.example/picture.png">

使用 Python。我不想使用任何第三方程序。不过,我可以使用 RE 模块。该计划应:

  • 筛选一切
  • 找出imgorimage标签
  • 找到src并获取属性值(不带双引号)

这可能吗,如果可以,我该怎么做?我们可以假设我不需要访问互联网来执行此操作(我有一个名为 website.html 的文件,其中包含所有 html 代码)。

编辑:我当前的正则表达式是

r'<img[^>]*\ssrc="(.*?)"'

r'<image[^>]*\ssrc="(.*?)"'.

主要问题是表达式会选择以 img 或 image 开头的任何内容。例如,如果有什么说<imagesomethingrandom src="website">,它仍然会将其视为图像(因为单词 image 在开头)并且会添加源。

提前致谢。

抢。

4

4 回答 4

1

描述

该表达式将:

  • 查找所有具有属性image的标签imgsrc
  • 忽略不是 image 或 img 的标签,比如imagesomethingrandom
  • 捕获 src 属性的值
  • 正确处理单引号、双引号或不带引号的属性值
  • 避免大多数棘手的边缘情况,这些情况在匹配 html 时似乎会绊倒正则表达式

<ima?ge?(?=\s|>)(?=(?:[^>=]|='[^']*'|="[^"]*"|=[^'"][^\s>]*)*?\ssrc=(['"]?)(.*?)\1(?:\s|>))(?:[^>=]|='[^']*'|="[^"]*"|=[^'"][^\s>]*)*>

在此处输入图像描述

例子

现场正则表达式演示
现场 Python 演示

示例文本

注意第一行中相当困难的边缘情况

<img onmouseover=' src="NotTheDroidsYouAreLookingFor.png" ; if (x > 3) { funRotate(src); } ' src="http://another.example/picture.png">
<imagesomethingrandom class="logo" src="http://example.site/imagesomethingrandom.jpg">
<image class="logo" src="http://example.site/logo.jpg">
<img src="http://another.example/DoubleQuoted.png">
<image src='http://another.example/SingleQuoted.png'>
<img src=http://another.example/NotQuoted.png>

Python代码

#!/usr/bin/python
import re

string = """<img onmouseover=' src="NotTheDroidsYouAreLookingFor.png" ; if (x > 3) { funRotate(src); } ' src="http://another.example/picture.png">
<imagesomethingrandom class="logo" src="http://example.site/imagesomethingrandom.jpg">
<image class="logo" src="http://example.site/logo.jpg">
<img src="http://another.example/DoubleQuoted.png">
<image src='http://another.example/SingleQuoted.png'>
<img src=http://another.example/NotQuoted.png>
""";

regex = r"""<ima?ge?(?=\s|>)(?=(?:[^>=]|='[^']*'|="[^"]*"|=[^'"][^\s>]*)*?\ssrc=(['"]?)(.*?)\1(?:\s|>))(?:[^>=]|='[^']*'|="[^"]*"|=[^'"][^\s>]*)*>""";

intCount = 0

for matchObj in re.finditer( regex, string, re.M|re.I|re.S):
    print " "
    print "[", intCount, "][ 0 ] : ", matchObj.group(0)
    print "[", intCount, "][ 1 ] : ", matchObj.group(1)
    print "[", intCount, "][ 2 ] : ", matchObj.group(2)
    intCount+=1

捕获组

第 0 组获取整个图像或 img 标签
第 1 组获取包围 src 属性的引号,如果存在则
第 2 组获取 src 属性值

[ 0 ][ 0 ] :  <img onmouseover=' src="NotTheDroidsYouAreLookingFor.png" ; if (x > 3) { funRotate(src); } ' src="http://another.example/picture.png">
[ 0 ][ 1 ] :  "
[ 0 ][ 2 ] :  http://another.example/picture.png

[ 1 ][ 0 ] :  <image class="logo" src="http://example.site/logo.jpg">
[ 1 ][ 1 ] :  "
[ 1 ][ 2 ] :  http://example.site/logo.jpg

[ 2 ][ 0 ] :  <img src="http://another.example/DoubleQuoted.png">
[ 2 ][ 1 ] :  "
[ 2 ][ 2 ] :  http://another.example/DoubleQuoted.png

[ 3 ][ 0 ] :  <image src='http://another.example/SingleQuoted.png'>
[ 3 ][ 1 ] :  '
[ 3 ][ 2 ] :  http://another.example/SingleQuoted.png

[ 4 ][ 0 ] :  <img src=http://another.example/NotQuoted.png>
[ 4 ][ 1 ] :  
[ 4 ][ 2 ] :  http://another.example/NotQuoted.png
于 2013-08-18T03:41:20.303 回答
0

和一个修改过的版本

<ima?ge? # using conditional letters, we match both tags in one expression
\s+      # require at least one space, also includes newlines which are valid
         # prevents <imgbutnotreally> tags
[^>]*?   # similar to the above, but tell it not to be greedy (performance)
\bsrc="([^"]+) # match a space and find all characters in the src tag

红色的

<ima?ge?\s+[^>]*?\src="([^"]+)
于 2013-08-17T03:40:56.267 回答
0

试试BeautifulSoup,只要写

from bs4 import BeautifulSoup    
soup = BeautifulSoup(theHTMLtext)
imagesElements = soup.find_all('img')
于 2013-08-17T06:30:03.060 回答
0

使用汤在 html 中查找一些图像

from bs4 import BeautifulSoup

url = <img src="http://another.example/picture.png">

a = BeautifulSoup(html, 'html.parser')
b = a.findAll('img')
url_picture = list()
for i in range(0, len(b)):
    image = b[i].attrs['src']
    url_picture.append(image)
于 2021-08-12T16:40:59.817 回答