0

我有一个现有的scrapy spider,它可以抓取一个公共记录站点,并且spider 运行良好,但是他们添加了一个破坏spider 的验证码弹出窗口(原始程序员不可用)。

我正在尝试查看如何修改现有的蜘蛛来处理这个问题。

例如来自:

http://publicindex.sccourts.org/mccormick/publicindex/

如果我点击接受按钮,现在会弹出一个验证码表单。

我可以从我的浏览器中右键单击并保存图像,实际上我可以通过漂浮在那里的 deaptcha api 之一对其进行解码。但我对scrapy很陌生,所以可以在查看如何提取图像和处理它时使用一些帮助。

可以使用一些帮助:)

4

1 回答 1

0

您应该使用 xpath 来提取验证码的图像

hxs.select("//div[@class='captcha']/img[@src]")

然后处理它。

以上是 HtmlXPathSelector 的例子,你也可以使用其他的。

更多信息http://doc.scrapy.org/en/0.18/topics/selectors.html

于 2013-09-10T10:11:43.170 回答