如果我有页面的 URL,我需要能够在标签中提取 HTML 内容。有什么办法可以使用 Python 做到这一点吗?
问问题
273 次
2 回答
1
有一个令人难以置信的 Python 抓取库,名为 BeautifulSoup,它会让你的生活更轻松:http ://www.crummy.com/software/BeautifulSoup/
BeautifulSoup 允许您通过 html 标记和/或 html 属性进行选择,例如通过 css 类名。它还可以很好地处理糟糕的 html 文档,但是您需要阅读文档以了解其工作原理。使用这个库只需几行代码就可以抓取到什么,真是太神奇了。
玩得开心!
于 2013-07-26T05:04:22.190 回答
0
使用美人汤
这样做很容易,只需使用urllib
从网络获取数据,然后使用 BeautifulSoup 解析出您需要的信息
这是一个例子:
import urllib2
from bs4 import BeautifulSoup
url = urllib2.urlopen('example.com')
soup = BeautifulSoup(url)
然后,您可以使用 BeautifulSoup 提取给定特定标签的信息,如下所示
soup.find_all('tag_name')
还有很多其他方法可以提取数据,这个站点将帮助使用 bs4 进行 Web-Scraping
于 2013-07-26T05:04:38.217 回答