我希望 scrapy 抓取进入下一个链接的页面,如下所示:
<a href="#" onclick="return gotoPage('2');"> Next </a>
scrapy 能够解释其中的 javascript 代码吗?
通过livehttpheaders扩展,我发现单击 Next 会生成一个 POST,其中包含一个非常大的“垃圾”,如下所示:
encoded_session_hidden_map=H4sIAAAAAAAAALWZXWwj1RXHJ9n
我正在尝试在CrawlSpider
该类上构建我的蜘蛛,但我无法真正弄清楚如何对其进行编码,BaseSpider
我使用该parse()
方法来处理第一个 URL,这恰好是一个登录表单,我在其中进行了 POST:
def logon(self, response):
login_form_data={ 'email': 'user@example.com', 'password': 'mypass22', 'action': 'sign-in' }
return [FormRequest.from_response(response, formnumber=0, formdata=login_form_data, callback=self.submit_next)]
然后我定义了 submit_next() 来告诉下一步该做什么。我不知道如何告诉 CrawlSpider 在第一个 URL 上使用哪种方法?
我爬的所有请求,除了第一个,都是 POST 请求。他们交替使用两种类型的请求:粘贴一些数据,然后单击“下一步”转到下一页。