-1

我想使用 scraperwiki 和 python 来构建一个从不同站点刮取大量信息的刮板。我想知道是否可以指向单个 URL,然后从该站点内的每个链接中刮取数据。

例如:一个站点将包含有关不同项目的信息,每个项目都在其自己的单独链接中。我不需要这些链接的列表,而是其中包含的实际数据。

刮板将在每个链接上寻找相同的属性。

有谁知道我如何或是否可以这样做?

谢谢!

4

1 回答 1

1

使用 urllib2 查看 BeautifulSoup。

http://www.crummy.com/software/BeautifulSoup/

一个(非常)粗略的链接刮板示例如下所示:

from bs4 import BeautifulSoup
import urllib2

c = urllib2.urlopen(url)
contents = c.read()
soup = BeautifulSoup(contents)
links = soup.find_all(a):

然后只需编写一个 for 循环来多次执行此操作即可!

于 2013-03-08T01:14:08.993 回答