python - Python 正则表达式：re.search() 找不到字符串

Question

我无法使用 re.search() 方法。我正在尝试从以下显式字符串中提取图像链接：

div class="beitragstext">\n\t\t\t\tEs gibt derzeit keine GrÃ¼nde mehr NICHT auf 1.1.3 zu springen!\n<a href="http://www.flickr.com/photos/factoryjoe/372948722/"><img src="https://www.iphoneblog.de/wp-content/uploads/2008/02/372948722-6ec4028a80.jpg" alt="372948722_6ec4028a80.jpg" border="0" width="430" height="466" /></a>\nPhoto: <a href="http://www.flickr.com/photos/factoryjoe">factoryjoe</a>

我想减去第一张图片的 URL，并且只减去 URL。

这是我的代码： imageURLObject = re.search(r'http(?!.*http).*?\.(jpg|png|JPG|PNG)', match)

结果应该是https://www.iphoneblog.de/wp-content/uploads/2008/02/372948722-6ec4028a80.jpg

相反，方法返回是无。但是如果使用这个正则表达式re.search(r'http.*?\.(jpg|png|JPG|PNG)', match)，没有 `*(?!. http)，第一个http命中将匹配到.(jpg|png|JPG|PNG)，这将是返回：

http://www.flickr.com/photos/factoryjoe/372948722/"><img src="https://www.iphoneblog.de/wp-content/uploads/2008/02/372948722-6ec4028a80.jpg

有人能帮助我吗？:-)

score 1 · Accepted Answer

Use Beautiful soup for HTML parsing..

https://beautiful-soup-4.readthedocs.io/en/latest/

from bs4 import BeautifulSoup

html = """
<div class="beitragstext">\n\t\t\t\t<p>Es gibt derzeit keine GrÃ¼nde mehr NICHT auf 1.1.3 zu springen!</p>\n<p><a href="http://www.flickr.com/photos/factoryjoe/372948722/"><img src="https://www.iphoneblog.de/wp-content/uploads/2008/02/372948722-6ec4028a80.jpg" alt="372948722_6ec4028a80.jpg" border="0" width="430" height="466" /></a></p>\n<p>Photo: <a href="http://www.flickr.com/photos/factoryjoe">factoryjoe</a>
"""

soup = BeautifulSoup(html, 'lxml')
links = soup.find_all('div', {'class': 'beitragstext'})

for i in links:
    print(i.find('img')['src'])

>>> https://www.iphoneblog.de/wp-content/uploads/2008/02/372948722-6ec4028a80.jpg

python - Python 正则表达式：re.search() 找不到字符串

1 回答 1

Related

Reference