如何使用scrapy
python库制作以下爬虫,递归浏览整个网站:
class DmozSpider(BaseSpider):
name = "dmoz"
allowed_domains = ["dmoz.org"]
start_urls = [
"http://www.dmoz.org/"
]
def parse(self, response):
hxs = HtmlXPathSelector(response)
titles = hxs.select('//ul[@class="directory-url"]/li/a/text()').extract()
for t in titles:
print "Title: ", t
我在一个页面上试过这个:
start_urls = [
"http://www.dmoz.org/Society/Philosophy/Academic_Departments/Africa/"
]
它运行良好,但仅从起始 url 返回结果,并且不遵循域内的链接。我想这必须手动完成,Scrapy
但不知道如何。