我是 Scrapy 的新手,我正在做一个抓取练习,我正在使用 CrawlSpider。虽然 Scrapy 框架运行良好并且它遵循相关链接,但我似乎无法让 CrawlSpider 抓取第一个链接(主页/登录页面)。相反,它直接抓取由规则确定的链接,但不抓取链接所在的登录页面。我不知道如何解决这个问题,因为不建议覆盖 CrawlSpider 的解析方法。修改 follow=True/False 也不会产生任何好的结果。这是代码片段:
class DownloadSpider(CrawlSpider):
name = 'downloader'
allowed_domains = ['bnt-chemicals.de']
start_urls = [
"http://www.bnt-chemicals.de"
]
rules = (
Rule(SgmlLinkExtractor(aloow='prod'), callback='parse_item', follow=True),
)
fname = 1
def parse_item(self, response):
open(str(self.fname)+ '.txt', 'a').write(response.url)
open(str(self.fname)+ '.txt', 'a').write(','+ str(response.meta['depth']))
open(str(self.fname)+ '.txt', 'a').write('\n')
open(str(self.fname)+ '.txt', 'a').write(response.body)
open(str(self.fname)+ '.txt', 'a').write('\n')
self.fname = self.fname + 1