发生“分段错误”,scrapy 停止运行。检查网站网址后,我发现它应该属于一个带有 href 属性但没有值的标签。像这样:“ <a href> dummy </a>
”我怀疑这是由lxml .so lib引起的,如何处理?至少防止蜘蛛停止问题。我的代码片段:
hxs = HtmlXPathSelector(response)
sites = hxs.select('//a')
for site in sites:
list_title= site.select('text()').extract()
list_link = site.select('./@href').extract() #????(crash here when parsing <a href></a>)
顺便说一句,抓取的网站是'http://mil.news.sohu.com/' 运行环境:scrapy 0.15.1 和 python 2.7.3,预安装 openssl0.12,因为scrapy 的 openssl0.13 默认没有安装成功。
非常感谢亚伦