python - 使用 Python 抓取特定标签

Question

如果我有页面的 URL，我需要能够在标签中提取 HTML 内容。有什么办法可以使用 Python 做到这一点吗？

score 1 · Accepted Answer

有一个令人难以置信的 Python 抓取库，名为 BeautifulSoup，它会让你的生活更轻松：http ://www.crummy.com/software/BeautifulSoup/

BeautifulSoup 允许您通过 html 标记和/或 html 属性进行选择，例如通过 css 类名。它还可以很好地处理糟糕的 html 文档，但是您需要阅读文档以了解其工作原理。使用这个库只需几行代码就可以抓取到什么，真是太神奇了。

玩得开心！

score 0 · Accepted Answer

这样做很容易，只需使用urllib从网络获取数据，然后使用 BeautifulSoup 解析出您需要的信息

这是一个例子：

import urllib2
from bs4 import BeautifulSoup

url = urllib2.urlopen('example.com')

soup = BeautifulSoup(url)

然后，您可以使用 BeautifulSoup 提取给定特定标签的信息，如下所示

soup.find_all('tag_name')

还有很多其他方法可以提取数据，这个站点将帮助使用 bs4 进行 Web-Scraping

2 回答 2