我有一个现有的scrapy spider,它可以抓取一个公共记录站点,并且spider 运行良好,但是他们添加了一个破坏spider 的验证码弹出窗口(原始程序员不可用)。
我正在尝试查看如何修改现有的蜘蛛来处理这个问题。
例如来自:
http://publicindex.sccourts.org/mccormick/publicindex/
如果我点击接受按钮,现在会弹出一个验证码表单。
我可以从我的浏览器中右键单击并保存图像,实际上我可以通过漂浮在那里的 deaptcha api 之一对其进行解码。但我对scrapy很陌生,所以可以在查看如何提取图像和处理它时使用一些帮助。
可以使用一些帮助:)