问题标签 [crawlera]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
342 浏览

python - 如何让网站相信请求来自使用 Scrapy 的浏览器?

我正在尝试抓取此网址:

我只是想刮标题和发布日期,但Bloomberg总是禁止男人并认为我是机器人

我收到的示例响应:

知道如何让网站相信请求来自使用 Scrapy 的浏览器吗?

这是我到目前为止所做的

我也使用 crawlera,并将其添加到 settings.py

请帮帮我谢谢

0 投票
1 回答
747 浏览

python - 为什么scrapy with crawlera 运行这么慢?

我正在使用带有 crawlera(来自 scrapinghub 的 C100 计划)和 python 3.6 的 scrapy 1.7.3。

在启用 crawlera 的情况下运行蜘蛛时,我每分钟大约可以处理 20 到 40 个项目。如果没有 crawlera,我会得到 750 - 1000(但我当然很快就会被禁止)。

我配置错了吗?使用 crawlera,我应该每分钟至少获得 150 - 300 件物品,不是吗?自动油门被禁用。

下面你会看到我的蜘蛛和我的蜘蛛设置.py 的一部分。

设置.py

0 投票
1 回答
578 浏览

scrapy - 爬虫、cookies、会话、速率限制

我正在尝试使用 scrapinghub 抓取严重限制请求率的网站。

如果我按原样运行蜘蛛,我很快就会得到 429。

如果我按照标准说明启用 crawlera ,则蜘蛛不再工作。

如果我headers = {"X-Crawlera-Cookies": "disable"}再次设置蜘蛛工作,但我得到 429s - 所以我假设限制器(也)在 cookie 上工作。

那么这里有什么方法呢?

0 投票
1 回答
169 浏览

scrapy - Scrapy crawlera bug

Scrapy 2.0.1,scrapy_crawlera 1.7.0。我认为scrapy_crawlera 应该以不同的方式访问元(https://github.com/scrapy/scrapy/issues/3516

0 投票
0 回答
89 浏览

python-3.x - 网站无休止地重定向,直到在scrapy中达到最大重定向

通过浏览器访问站点时,该站点的行为正常,但在通过爬虫机器人访问站点时会出现重定向问题。我使用 Scrapy-Crawlera 代理服务,仍然无休止地重定向站点。如果我使用handle_httpstatus_list = [302]or dont_redirect = True,我将得到响应

对象移至此处。

我希望就某些网站上为什么会出现这种行为提供任何建议或答案?不幸的是,我无法分享网站 URL。

0 投票
0 回答
306 浏览

python - 将scrapy-splash与 crawlera 一起使用时出现 504 超时异常

我尝试使用http://www.google.com的scrapy-splash并遵循以下 Github Repo https://github.com/scrapy-plugins/scrapy-splash中给出的所有先决条件步骤,我能够渲染 Google页。

但是,当我通过以下 Github Repo https://github.com/scrapinghub/sample-projects/tree/master/splash_crawlera_example中提到的将crawlera 与 scrapy-splash集成来厌倦相同的http://www.google.com时,我总是收到 504 超时异常

splash_crawlera_example中提到的默认示例 url http://quotes.toscrape.com/js/已成功通过 crawlera 渲染,但不是 Google,是否需要使用脚本更改任何内容以渲染 Google 页面?

这是引号-js.py

设置.py

爬虫.lua

0 投票
1 回答
341 浏览

python - 每个请求使用特定的 Scrapy 下载器中间件

我使用 Crawlera 作为 IP 轮换服务来抓取一个特定的网站,该网站快速禁止我的 IP,但我只有十几个网站中的一个有这个问题。

由于可以为 Scrapy 项目注册多个中间件,我想知道是否可以定义下载器中间件以使用 PER REQUEST。

所以我只能将我的 Crawlera 配额用于有问题的网站,而不是用于我的所有请求。

0 投票
2 回答
728 浏览

python - 从 URL 列表下载图像(Scrapy 每个 URL 发送 2 个请求)

因此,我上周运行了一个爬虫并生成了一个 CSV 文件,其中列出了我的项目所需的所有图像 URL。在将 CSV 读取到 python 列表后,我不确定如何使用 Scrapy 通过管道简单地下载它们。我尝试了很多东西,最近我让它工作了,但它很丑而且不太正确。对于我的 10 个图像 URL 列表,即使正确存储了 10 个图像,Scrapy 也会发出 20 个请求来完成抓取。我可能在做一些愚蠢的事情,因为我对 Scrapy 还很陌生,但是我已经阅读了 Scrapy 的大部分文档,并且对谷歌结果进行了很多试验和错误。

我只是想让 Scrapy 为每个 URL 发送一个请求并下载相应的图像。任何帮助,将不胜感激。我已经为此撞了3天。我的代码:

蜘蛛.py

如果您想查看其他文件,我可以对其进行编辑以添加它们。我只是认为这就是问题所在,因为它在技术上确实有效。再次感谢,感谢任何帮助或重定向。

0 投票
0 回答
364 浏览

selenium - 如何在硒中使用爬虫代理

我有一个硒项目。我将在 selenium 中使用 Crawlera 代理。我已经有一个 Crawlera 的 API Key。

那么如何设置 API KEY 呢?然后我想在 Scrapinghub 上部署代码。如何将 Crawlera 应用到 selenium 中,以便它在 Scrapy 云上正常工作?请帮我。谢谢。

0 投票
2 回答
191 浏览

scrapy - 如何解决 Scrapy 请求中的 502 响应代码?

我创建了一个蜘蛛,它使用 Scrapy 从 Yelp 中抓取数据。所有请求都通过 Crawlera 代理。Spider 获取要抓取的 URL,发送请求并抓取数据。这一直很好,直到前几天我开始收到 502 None 响应。执行此行后出现 502 None 响应:

r = self.req_session.get(url, proxies=self.proxies, verify='../secret/crawlera-ca.crt').text

追溯:

2020-11-04 14:27:55 [urllib3.connectionpool] DEBUG: https://www.yelp.com:443 "GET /biz/a-dog-in-motion-arcadia HTTP/1.1" 502 None

因此,蜘蛛似乎无法访问 URL,因为连接已关闭。

我在 Scrapy 和 Crawlera 文档中检查了 502 的含义,它指的是连接被拒绝、关闭、域不可用和类似的事情。我已经调试了与问题发生位置相关的代码,并且一切都是最新的。

如果有人对此有想法或知识,我很乐意听到,因为我被困住了。这里实际上可能是什么问题?

注意:当我在浏览器中打开 Yelp URL 时,它们可以正常工作。