所以我一直在研究一个从不和谐中抓取数据的网络爬虫。
为此,我使用了 selenium python。所以我希望它即使在我的计算机离线时也能继续抓取数据。
所以经过一些研究,我发现我可以使用 repl.it 和 uptime bot。
repl.it 在网络上运行脚本,uptime bot 每 5 分钟 ping 它一次。
但是当我在 repl.it 上运行脚本时,它打开了一个小的 Chromium 窗口,这对那个时候很有用, 因为它正在提示 hcaptcha
这就是问题开始的地方。
我试图很难找到 hcaptcha 复选框的类名并最终找到它,但是它要求我选择图片。
recaptcha 有很多解决方案,但 hcaptcha 没有。
所以我到处搜索,但找不到可以满足我的问题的解决方案
我正在寻找问题的解决方案:-
1.我可以永远运行我的脚本的任何其他平台或方式(当然不是商业和付费的,如 aws、microsoft 和所有......)
2.以及解决hcaptcha问题的方法(因为我发现他们有recaptcha而不是hcaptcha的答案)
我在制作项目和寻找解决方案时参考的链接、代码和资源
1.https://www.youtube.com/watch?v=As-_hfZUyIs(绕过recaptcha)
2.https://medium.com/analytics-vidhya/how-to-easily-bypass-recaptchav2-with-selenium-7f7a9a44fa9e
3.https://www.browserstack.com/guide/how-to-handle-captcha-in-selenium
4.https://www.reddit.com/r/learnpython/comments/efeaxy/captcha_using_selenium_in_python/
5.https://stackoverflow.com/questions/44187909/python-selenium-and-captcha
6.https://github.com/dessant/buster(recaptch buster)