问题标签 [crawlera]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何让网站相信请求来自使用 Scrapy 的浏览器?
我正在尝试抓取此网址:
我只是想刮标题和发布日期,但Bloomberg总是禁止男人并认为我是机器人
我收到的示例响应:
知道如何让网站相信请求来自使用 Scrapy 的浏览器吗?
这是我到目前为止所做的
我也使用 crawlera,并将其添加到 settings.py
请帮帮我谢谢
python - 为什么scrapy with crawlera 运行这么慢?
我正在使用带有 crawlera(来自 scrapinghub 的 C100 计划)和 python 3.6 的 scrapy 1.7.3。
在启用 crawlera 的情况下运行蜘蛛时,我每分钟大约可以处理 20 到 40 个项目。如果没有 crawlera,我会得到 750 - 1000(但我当然很快就会被禁止)。
我配置错了吗?使用 crawlera,我应该每分钟至少获得 150 - 300 件物品,不是吗?自动油门被禁用。
下面你会看到我的蜘蛛和我的蜘蛛设置.py 的一部分。
设置.py
scrapy - 爬虫、cookies、会话、速率限制
我正在尝试使用 scrapinghub 抓取严重限制请求率的网站。
如果我按原样运行蜘蛛,我很快就会得到 429。
如果我按照标准说明启用 crawlera ,则蜘蛛不再工作。
如果我headers = {"X-Crawlera-Cookies": "disable"}
再次设置蜘蛛工作,但我得到 429s - 所以我假设限制器(也)在 cookie 上工作。
那么这里有什么方法呢?
scrapy - Scrapy crawlera bug
Scrapy 2.0.1,scrapy_crawlera 1.7.0。我认为scrapy_crawlera 应该以不同的方式访问元(https://github.com/scrapy/scrapy/issues/3516)
python-3.x - 网站无休止地重定向,直到在scrapy中达到最大重定向
通过浏览器访问站点时,该站点的行为正常,但在通过爬虫机器人访问站点时会出现重定向问题。我使用 Scrapy-Crawlera 代理服务,仍然无休止地重定向站点。如果我使用handle_httpstatus_list = [302]
or dont_redirect = True
,我将得到响应
对象移至此处。
我希望就某些网站上为什么会出现这种行为提供任何建议或答案?不幸的是,我无法分享网站 URL。
python - 将scrapy-splash与 crawlera 一起使用时出现 504 超时异常
我尝试使用http://www.google.com的scrapy-splash并遵循以下 Github Repo https://github.com/scrapy-plugins/scrapy-splash中给出的所有先决条件步骤,我能够渲染 Google页。
但是,当我通过以下 Github Repo https://github.com/scrapinghub/sample-projects/tree/master/splash_crawlera_example中提到的将crawlera 与 scrapy-splash集成来厌倦相同的http://www.google.com时,我总是收到 504 超时异常
splash_crawlera_example中提到的默认示例 url http://quotes.toscrape.com/js/已成功通过 crawlera 渲染,但不是 Google,是否需要使用脚本更改任何内容以渲染 Google 页面?
这是引号-js.py
设置.py
爬虫.lua
python - 每个请求使用特定的 Scrapy 下载器中间件
我使用 Crawlera 作为 IP 轮换服务来抓取一个特定的网站,该网站快速禁止我的 IP,但我只有十几个网站中的一个有这个问题。
由于可以为 Scrapy 项目注册多个中间件,我想知道是否可以定义下载器中间件以使用 PER REQUEST。
所以我只能将我的 Crawlera 配额用于有问题的网站,而不是用于我的所有请求。
python - 从 URL 列表下载图像(Scrapy 每个 URL 发送 2 个请求)
因此,我上周运行了一个爬虫并生成了一个 CSV 文件,其中列出了我的项目所需的所有图像 URL。在将 CSV 读取到 python 列表后,我不确定如何使用 Scrapy 通过管道简单地下载它们。我尝试了很多东西,最近我让它工作了,但它很丑而且不太正确。对于我的 10 个图像 URL 列表,即使正确存储了 10 个图像,Scrapy 也会发出 20 个请求来完成抓取。我可能在做一些愚蠢的事情,因为我对 Scrapy 还很陌生,但是我已经阅读了 Scrapy 的大部分文档,并且对谷歌结果进行了很多试验和错误。
我只是想让 Scrapy 为每个 URL 发送一个请求并下载相应的图像。任何帮助,将不胜感激。我已经为此撞了3天。我的代码:
蜘蛛.py
如果您想查看其他文件,我可以对其进行编辑以添加它们。我只是认为这就是问题所在,因为它在技术上确实有效。再次感谢,感谢任何帮助或重定向。
selenium - 如何在硒中使用爬虫代理
我有一个硒项目。我将在 selenium 中使用 Crawlera 代理。我已经有一个 Crawlera 的 API Key。
那么如何设置 API KEY 呢?然后我想在 Scrapinghub 上部署代码。如何将 Crawlera 应用到 selenium 中,以便它在 Scrapy 云上正常工作?请帮我。谢谢。
scrapy - 如何解决 Scrapy 请求中的 502 响应代码?
我创建了一个蜘蛛,它使用 Scrapy 从 Yelp 中抓取数据。所有请求都通过 Crawlera 代理。Spider 获取要抓取的 URL,发送请求并抓取数据。这一直很好,直到前几天我开始收到 502 None 响应。执行此行后出现 502 None 响应:
r = self.req_session.get(url, proxies=self.proxies, verify='../secret/crawlera-ca.crt').text
追溯:
2020-11-04 14:27:55 [urllib3.connectionpool] DEBUG: https://www.yelp.com:443 "GET /biz/a-dog-in-motion-arcadia HTTP/1.1" 502 None
因此,蜘蛛似乎无法访问 URL,因为连接已关闭。
我在 Scrapy 和 Crawlera 文档中检查了 502 的含义,它指的是连接被拒绝、关闭、域不可用和类似的事情。我已经调试了与问题发生位置相关的代码,并且一切都是最新的。
如果有人对此有想法或知识,我很乐意听到,因为我被困住了。这里实际上可能是什么问题?
注意:当我在浏览器中打开 Yelp URL 时,它们可以正常工作。