selenium - 是否有类似于 Python 的 puppetetteer 的隐形无头浏览器自动化工具？

Question

我知道 Pyppeteer 库和 Pyppeteer Stealth，但它们的问题是我试图从中抓取信息的网站检测到 Pyppeteer Stealth（Puppeteer 的 Python 移植）并阻止它。在 node JS 上使用的原始 Puppetetteer Stealth 在该网站上运行良好，但是，我更愿意在 Python 上创建这个爬虫，因为我更熟悉它。

还有哪些其他隐形和最新的无头浏览器自动化工具可用？

我所需要的只是抓取 HTML 内容并通过 Beautiful Soup 解析它。不幸的是，requests 和 requests-html 库在这个网站上也不起作用。

score 0 · Accepted Answer

如果您不太关心软件的自动化部分，我建议您研究 Scrapy（如果您需要渲染 js，则建议使用 Scrapy Splash，这就是为什么我假设您首先要使用 Pyppeteer）结合使用一些基本的策略来避免被当成机器人被抓到，比如用户代理轮换和代理轮换。

这也是我目前用来为similarweb.com制作刮板的策略。

selenium - 是否有类似于 Python 的 puppetetteer 的隐形无头浏览器自动化工具？

1 回答 1

Related

Reference