目前我正在研究scrapy,下面是我的spider.py代码
class Example(BaseSpider):
name = "example"
allowed_domains = {"http://www.example.com"}
start_urls = [
"https://www.example.com/rwjhamilton/index.cfm?&ijobcatid=100&ijobrowset=1&cjobattr1=All&template=dsp_job_list.cfm"
]
def parse(self, response):
hxs = HtmlXPathSelector(response)
href_tags = hxs.select('//font[@class="bannertext"]/u/a/@href').extract()
print href_tags,">>>>>>>>>>>>>>>>"
结果 :
2012-07-19 17:32:20+0530 [example] ERROR: Error downloading <GET https://www.example.com/rwjhamilton/index.cfm?&ijobcatid=100&ijobrowset=1&cjobattr1=All&template=dsp_job_list.cfm>: [('SSL routines', 'SSL23_READ', 'ssl handshake failure')]
这个错误对scrapy来说似乎很新,我真的不知道如何解决这个问题,谁能告诉我为什么会出现这个错误以及如何解决它。实际上我正在尝试收集上述 url 中的 href 标签,似乎总共有 40 个 href 标签
有时响应正在下载,有时正在显示
2012-07-19 17:39:15+0530 [example] DEBUG: Retrying <GET https://www.example.com/rwjhamilton/index.cfm?&ijobcatid=100&ijobrowset=1&cjobattr1=All&template=dsp_job_list.cfm> (failed 1 times): Connection to the other side was lost in a non-clean fashion
请让我知道如何解决这个问题。提前致谢.....