-2

我知道 Pyppeteer 库和 Pyppeteer Stealth,但它们的问题是我试图从中抓取信息的网站检测到 Pyppeteer Stealth(Puppeteer 的 Python 移植)并阻止它。在 node JS 上使用的原始 Puppetetteer Stealth 在该网站上运行良好,但是,我更愿意在 Python 上创建这个爬虫,因为我更熟悉它。

还有哪些其他隐形和最新的无头浏览器自动化工具可用?

我所需要的只是抓取 HTML 内容并通过 Beautiful Soup 解析它。不幸的是,requests 和 requests-html 库在这个网站上也不起作用。

4

1 回答 1

0

如果您不太关心软件的自动化部分,我建议您研究 Scrapy(如果您需要渲染 js,则建议使用 Scrapy Splash,这就是为什么我假设您首先要使用 Pyppeteer)结合使用一些基本的策略来避免被当成机器人被抓到,比如用户代理轮换和代理轮换。

这也是我目前用来为similarweb.com制作刮板的策略。

于 2020-08-03T19:21:39.490 回答