0

晚上的人(或早上,取决于你在哪里:))。

我正在寻找一个包含多个片段的网页,类似于以下内容:-

> <p><a name="Abercrombie"></a></p> <h3>Abercrombie Council</h3> <p>Mr
> Billy Smith<br />The Managing Director<br />123 Jones Street,
> London<br />T:02081234567<br /><a
> href="mailto:billysmith@example.com">Email</a></p>

我想要做的是从网页中捕获源代码,然后对其进行解析,提取上面的唯一信息,并将其放入制表符分隔的文档中的行中,最后换行 - 拆分标题、名称办公室、个人姓名、工作角色、地址、电话号码、电子邮件地址。

我一直在考虑使用 BeautifulSoup,但我只是想知道是否还有其他更合适的工具?

4

3 回答 3

1

我会说 BeautifulSoup 将是您最好和最简单的选择,它可以解析页面或 HTML 块。你也可以试试scrapy甚至scraperwiki

BS 的示例用法

import BeautifulSoup
import urllib2

get = urllib2.urlopen('http://site.com').read()
dom = BeautifulSoup.BeautifulSoup(get)
data = dom.findAll('p', {'class' : 'address'}) # <p class='address'>....</p>

for i in data:
    print data

更多示例:http ://www.crummy.com/software/BeautifulSoup/bs3/documentation.html

于 2013-01-24T21:15:41.313 回答
0

BeautifulSoup 是一个不错的流行库,但你也可以看看lxml

于 2013-01-24T21:10:16.090 回答
0

Web 抓取框架 Scrapy 是此类任务的不错选择http://scrapy.org/因为它不仅可以解析和提取数据,还可以运行自动抓取作业。

于 2013-01-24T22:27:17.813 回答