出于完全非恶意的目的——特别是机器学习,我想下载一个巨大的验证码图像数据集。然而,CAPTCHA 总是使用一些混淆的 javascript 来实现,这使得在没有浏览器的情况下获取实际图像成为一项不平凡的任务,至少对我这个 javascript 新手来说是这样。
那么,任何人都可以给我一些有用的指导,说明如何使用完全在浏览器之外的脚本来下载模糊单词的图像?并且请不要将我指向已经收集的模糊词的数据集 - 我需要从特定网站收集图像以进行此特定实验。
谢谢!
编辑:可以问这个问题的另一种方式非常简单。当您在具有复杂 javascript 的网站上单击“查看源代码”时,您会看到脚本引用,但这就是您所看到的。但是,如果您单击“将网页另存为...”(在 firefox 中)然后查看已保存网页的源代码,则会解析 javascript 并且新的 html 和图像(至少在 ASIRRA 和 reCAPTCHA 的情况下)是在源头。如何使用脚本模仿这种“将网页另存为...”行为?一般来说,这是一个重要的网络编码问题,所以请不要再质疑我的动机了!这是我从现在开始可以在涉及脚本的所有 Web 开发中使用的知识,我相信其他堆栈溢出访问者也可以!