python - 从站点内的多个链接中抓取数据

Question

我想使用 scraperwiki 和 python 来构建一个从不同站点刮取大量信息的刮板。我想知道是否可以指向单个 URL，然后从该站点内的每个链接中刮取数据。

例如：一个站点将包含有关不同项目的信息，每个项目都在其自己的单独链接中。我不需要这些链接的列表，而是其中包含的实际数据。

刮板将在每个链接上寻找相同的属性。

有谁知道我如何或是否可以这样做？

谢谢！

score 1 · Accepted Answer

使用 urllib2 查看 BeautifulSoup。

一个（非常）粗略的链接刮板示例如下所示：

from bs4 import BeautifulSoup
import urllib2

c = urllib2.urlopen(url)
contents = c.read()
soup = BeautifulSoup(contents)
links = soup.find_all(a):

然后只需编写一个 for 循环来多次执行此操作即可！

1 回答 1