-1

所以我一直在研究一个从不和谐中抓取数据的网络爬虫。

为此,我使用了 selenium python。所以我希望它即使在我的计算机离线时也能继续抓取数据。

所以经过一些研究,我发现我可以使用 repl.it 和 uptime bot。

repl.it 在网络上运行脚本,uptime bot 每 5 分钟 ping 它一次。

但是当我在 repl.it 上运行脚本时,它打开了一个小的 Chromium 窗口,这对那个时候很有用,裁判。 图片 因为它正在提示 hcaptcha

验证码

这就是问题开始的地方。

我试图很难找到 hcaptcha 复选框的类名并最终找到它,但是它要求我选择图片。

recaptcha 有很多解决方案,但 hcaptcha 没有。

所以我到处搜索,但找不到可以满足我的问题的解决方案

我正在寻找问题的解决方案:-

1.我可以永远运行我的脚本的任何其他平台或方式(当然不是商业和付费的,如 aws、microsoft 和所有......)

2.以及解决hcaptcha问题的方法(因为我发现他们有recaptcha而不是hcaptcha的答案)

我在制作项目和寻找解决方案时参考的链接、代码和资源

1.https://www.youtube.com/watch?v=As-_hfZUyIs(绕过recaptcha)

2.https://medium.com/analytics-vidhya/how-to-easily-bypass-recaptchav2-with-selenium-7f7a9a44fa9e

3.https://www.browserstack.com/guide/how-to-handle-captcha-in-selenium

4.https://www.reddit.com/r/learnpython/comments/efeaxy/captcha_using_selenium_in_python/

5.https://stackoverflow.com/questions/44187909/python-selenium-and-captcha

6.https://github.com/dessant/buster(recaptch buster)

4

1 回答 1

0

问题 1:您可以将脚本放入 Repl.it 中查看此处并使用 replit 自动 pinger,它每 5 分钟 ping 一次服务以保持您的项目处于活动状态。

问题2:这里有一个tampermonkey扩展,你可以做的是在chrome/任何浏览器(我更喜欢firefox)中创建一个配置文件并安装greasemonkey,安装脚本,然后检查验证码元素是否存在,如果存在,等待 40 秒。之后,验证码应该自行解决。如果您对绕过 hCaptcha 的不同方法感兴趣,也可以在 github 上找到这个repo。

祝你好运!

于 2021-09-06T15:11:54.557 回答