python - 修改网站实施验证码的现有scrapy spider - 如何获取弹出的图像以供解码并继续？

Question

我有一个现有的scrapy spider，它可以抓取一个公共记录站点，并且spider 运行良好，但是他们添加了一个破坏spider 的验证码弹出窗口（原始程序员不可用）。

我正在尝试查看如何修改现有的蜘蛛来处理这个问题。

例如来自：

如果我点击接受按钮，现在会弹出一个验证码表单。

我可以从我的浏览器中右键单击并保存图像，实际上我可以通过漂浮在那里的 deaptcha api 之一对其进行解码。但我对scrapy很陌生，所以可以在查看如何提取图像和处理它时使用一些帮助。

可以使用一些帮助:)

score 0 · Accepted Answer

您应该使用 xpath 来提取验证码的图像

hxs.select("//div[@class='captcha']/img[@src]")

然后处理它。

以上是 HtmlXPathSelector 的例子，你也可以使用其他的。

1 回答 1