python - 使用 Python 2.7 解析 HTML

Question

晚上的人（或早上，取决于你在哪里:)）。

我正在寻找一个包含多个片段的网页，类似于以下内容：-

> <p><a name="Abercrombie"></a></p> <h3>Abercrombie Council</h3> <p>Mr
> Billy Smith<br />The Managing Director<br />123 Jones Street,
> London<br />T:02081234567<br /><a
> href="mailto:billysmith@example.com">Email</a></p>

我想要做的是从网页中捕获源代码，然后对其进行解析，提取上面的唯一信息，并将其放入制表符分隔的文档中的行中，最后换行 - 拆分标题、名称办公室、个人姓名、工作角色、地址、电话号码、电子邮件地址。

我一直在考虑使用 BeautifulSoup，但我只是想知道是否还有其他更合适的工具？

score 1 · Accepted Answer

我会说 BeautifulSoup 将是您最好和最简单的选择，它可以解析页面或 HTML 块。你也可以试试scrapy甚至scraperwiki

BS 的示例用法

import BeautifulSoup
import urllib2

get = urllib2.urlopen('http://site.com').read()
dom = BeautifulSoup.BeautifulSoup(get)
data = dom.findAll('p', {'class' : 'address'}) # <p class='address'>....</p>

for i in data:
    print data

更多示例：http ://www.crummy.com/software/BeautifulSoup/bs3/documentation.html

score 0 · Accepted Answer

0

BeautifulSoup 是一个不错的流行库，但你也可以看看lxml

于 2013-01-24T21:10:16.090 回答

score 0 · Accepted Answer

Web 抓取框架 Scrapy 是此类任务的不错选择http://scrapy.org/因为它不仅可以解析和提取数据，还可以运行自动抓取作业。

python - 使用 Python 2.7 解析 HTML

3 回答 3

Related

Reference