-7

我制作了一个 wordpress 插件,它将博客帖子作为帖子数据发送,以便我可以保存网页。我使用以下查询从博客中获取数据:

select * from $wpdb->posts 

上面这行并不重要,只是提到它是为了告诉你我是如何获取博客数据的。

数据包含 HTML 标记。我需要解析 HTML 以获取图像的 URL。获得 URL 后,我就知道如何从 URL 下载图像。我想知道一种解析 HTML 标记以获取图像 URL 且没有任何错误的好方法。

python 是首选语言。

4

1 回答 1

0

有几个 python 模块可以为您执行此操作:

  • 美丽汤
  • lxml.html
  • html5lib

例如,

import BeautifulSoup

html = """
  <html><body>
    <h1>My html!</h1>
    <img src="yourimage1.jpg" />
    <img src="yourimage1.jpg" />
  </body></html>
"""

bs = BeautifulSoup.BeautifulSoup(html)
urls = [img["src"] for img in bs.findAll("img")]

结果是urls == ['yourimage1.jpg', 'yourimage2.jpg']

于 2012-07-11T14:28:37.373 回答