我正在尝试使用抓取该网站的几页。
我已经尝试了关于这个网站的各种堆栈溢出答案,但没有一个奏效。网站上的所有页面仅返回 403。我尝试更改 ip 和更改用户代理
headers = {
"accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3",
"accept-language": "en-US,en;q=0.9,ru-RU;q=0.8,ru;q=0.7",
"cache-control": "no-cache",
"pragma": "no-cache",
"upgrade-insecure-requests": "1"
}
yield scrapy.Request('https://angel.co/login',callback=self.parse, method='GET',headers=headers)
我怎样才能让我的蜘蛛成功抓取这个网站?我已经检查过这个网站运行良好,即使 javascript 被禁用但仍然无法抓取 :(