python - 无法抓取 https://angel.co/

Question

我正在尝试使用抓取该网站的几页。

我已经尝试了关于这个网站的各种堆栈溢出答案，但没有一个奏效。网站上的所有页面仅返回 403。我尝试更改 ip 和更改用户代理

headers = {
            "accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3",
            "accept-language": "en-US,en;q=0.9,ru-RU;q=0.8,ru;q=0.7",
            "cache-control": "no-cache",
            "pragma": "no-cache",
            "upgrade-insecure-requests": "1"
        }

yield scrapy.Request('https://angel.co/login',callback=self.parse, method='GET',headers=headers)

我怎样才能让我的蜘蛛成功抓取这个网站？我已经检查过这个网站运行良好，即使 javascript 被禁用但仍然无法抓取 :(

score 0 · Accepted Answer

本网站正在使用 cloudflare ddos 保护服务。

尝试在标题user-agent: Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36中使用一些标题

你必须让服务器相信你是一个浏览器，而不是一个爬虫。

一些 cloudflare ddos 保护需要运行 javascript。还有一些人需要机器无法回答的验证码

首先，将您的响应写在一个文件中，然后查看该文件以了解它的保护类型。其次，由于问题而尝试处理

python - 无法抓取 https://angel.co/

1 回答 1

Related

Reference