我想使用 scraperwiki 和 python 来构建一个从不同站点刮取大量信息的刮板。我想知道是否可以指向单个 URL,然后从该站点内的每个链接中刮取数据。
例如:一个站点将包含有关不同项目的信息,每个项目都在其自己的单独链接中。我不需要这些链接的列表,而是其中包含的实际数据。
刮板将在每个链接上寻找相同的属性。
有谁知道我如何或是否可以这样做?
谢谢!
我想使用 scraperwiki 和 python 来构建一个从不同站点刮取大量信息的刮板。我想知道是否可以指向单个 URL,然后从该站点内的每个链接中刮取数据。
例如:一个站点将包含有关不同项目的信息,每个项目都在其自己的单独链接中。我不需要这些链接的列表,而是其中包含的实际数据。
刮板将在每个链接上寻找相同的属性。
有谁知道我如何或是否可以这样做?
谢谢!
使用 urllib2 查看 BeautifulSoup。
http://www.crummy.com/software/BeautifulSoup/
一个(非常)粗略的链接刮板示例如下所示:
from bs4 import BeautifulSoup
import urllib2
c = urllib2.urlopen(url)
contents = c.read()
soup = BeautifulSoup(contents)
links = soup.find_all(a):
然后只需编写一个 for 循环来多次执行此操作即可!