“crawlera”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

342 浏览

python - 如何让网站相信请求来自使用 Scrapy 的浏览器？

我正在尝试抓取此网址：

我只是想刮标题和发布日期，但Bloomberg总是禁止男人并认为我是机器人

我收到的示例响应：

知道如何让网站相信请求来自使用 Scrapy 的浏览器吗？

这是我到目前为止所做的

我也使用 crawlera，并将其添加到 settings.py

请帮帮我谢谢

2019-06-05T00:22:15.710

0 投票

1 回答

747 浏览

python - 为什么scrapy with crawlera 运行这么慢？

我正在使用带有 crawlera（来自 scrapinghub 的 C100 计划）和 python 3.6 的 scrapy 1.7.3。

在启用 crawlera 的情况下运行蜘蛛时，我每分钟大约可以处理 20 到 40 个项目。如果没有 crawlera，我会得到 750 - 1000（但我当然很快就会被禁止）。

我配置错了吗？使用 crawlera，我应该每分钟至少获得 150 - 300 件物品，不是吗？自动油门被禁用。

下面你会看到我的蜘蛛和我的蜘蛛设置.py 的一部分。

设置.py

python scrapy scrapinghub crawlera

2019-08-03T17:29:51.310

0 投票

1 回答

578 浏览

scrapy - 爬虫、cookies、会话、速率限制

我正在尝试使用 scrapinghub 抓取严重限制请求率的网站。

如果我按原样运行蜘蛛，我很快就会得到 429。

如果我按照标准说明启用 crawlera ，则蜘蛛不再工作。

如果我headers = {"X-Crawlera-Cookies": "disable"}再次设置蜘蛛工作，但我得到 429s - 所以我假设限制器（也）在 cookie 上工作。

那么这里有什么方法呢？

scrapy scrapinghub crawlera

2019-09-09T12:47:34.263

0 投票

1 回答

169 浏览

scrapy - Scrapy crawlera bug

Scrapy 2.0.1，scrapy_crawlera 1.7.0。我认为scrapy_crawlera 应该以不同的方式访问元（https://github.com/scrapy/scrapy/issues/3516）

scrapy crawlera

2020-04-02T06:11:00.133

0 投票

0 回答

89 浏览

python-3.x - 网站无休止地重定向，直到在scrapy中达到最大重定向

通过浏览器访问站点时，该站点的行为正常，但在通过爬虫机器人访问站点时会出现重定向问题。我使用 Scrapy-Crawlera 代理服务，仍然无休止地重定向站点。如果我使用handle_httpstatus_list = [302]or dont_redirect = True，我将得到响应

对象移至此处。

我希望就某些网站上为什么会出现这种行为提供任何建议或答案？不幸的是，我无法分享网站 URL。

python-3.x web-scraping scrapy crawlera

2020-04-29T06:15:30.053

0 投票

0 回答

306 浏览

python - 将scrapy-splash与 crawlera 一起使用时出现 504 超时异常

我尝试使用http://www.google.com的scrapy-splash并遵循以下 Github Repo https://github.com/scrapy-plugins/scrapy-splash中给出的所有先决条件步骤，我能够渲染 Google页。

但是，当我通过以下 Github Repo https://github.com/scrapinghub/sample-projects/tree/master/splash_crawlera_example中提到的将crawlera 与 scrapy-splash集成来厌倦相同的http://www.google.com时，我总是收到 504 超时异常

splash_crawlera_example中提到的默认示例 url http://quotes.toscrape.com/js/已成功通过 crawlera 渲染，但不是 Google，是否需要使用脚本更改任何内容以渲染 Google 页面？

这是引号-js.py

设置.py

爬虫.lua

python scrapy scrapy-splash scrapinghub crawlera

2020-05-26T09:36:29.543

0 投票

1 回答

341 浏览

python - 每个请求使用特定的 Scrapy 下载器中间件

我使用 Crawlera 作为 IP 轮换服务来抓取一个特定的网站，该网站快速禁止我的 IP，但我只有十几个网站中的一个有这个问题。

由于可以为 Scrapy 项目注册多个中间件，我想知道是否可以定义下载器中间件以使用 PER REQUEST。

所以我只能将我的 Crawlera 配额用于有问题的网站，而不是用于我的所有请求。

python scrapy crawlera

2020-05-28T09:22:05.630

0 投票

2 回答

728 浏览

python - 从 URL 列表下载图像（Scrapy 每个 URL 发送 2 个请求）

因此，我上周运行了一个爬虫并生成了一个 CSV 文件，其中列出了我的项目所需的所有图像 URL。在将 CSV 读取到 python 列表后，我不确定如何使用 Scrapy 通过管道简单地下载它们。我尝试了很多东西，最近我让它工作了，但它很丑而且不太正确。对于我的 10 个图像 URL 列表，即使正确存储了 10 个图像，Scrapy 也会发出 20 个请求来完成抓取。我可能在做一些愚蠢的事情，因为我对 Scrapy 还很陌生，但是我已经阅读了 Scrapy 的大部分文档，并且对谷歌结果进行了很多试验和错误。

我只是想让 Scrapy 为每个 URL 发送一个请求并下载相应的图像。任何帮助，将不胜感激。我已经为此撞了3天。我的代码：

蜘蛛.py

如果您想查看其他文件，我可以对其进行编辑以添加它们。我只是认为这就是问题所在，因为它在技术上确实有效。再次感谢，感谢任何帮助或重定向。

python scrapy imagedownload crawlera

2020-06-28T00:08:36.877

0 投票

0 回答

364 浏览

selenium - 如何在硒中使用爬虫代理

我有一个硒项目。我将在 selenium 中使用 Crawlera 代理。我已经有一个 Crawlera 的 API Key。

那么如何设置 API KEY 呢？然后我想在 Scrapinghub 上部署代码。如何将 Crawlera 应用到 selenium 中，以便它在 Scrapy 云上正常工作？请帮我。谢谢。

selenium scrapinghub crawlera

2020-07-15T20:59:54.507

0 投票

2 回答

191 浏览

scrapy - 如何解决 Scrapy 请求中的 502 响应代码？

我创建了一个蜘蛛，它使用 Scrapy 从 Yelp 中抓取数据。所有请求都通过 Crawlera 代理。Spider 获取要抓取的 URL，发送请求并抓取数据。这一直很好，直到前几天我开始收到 502 None 响应。执行此行后出现 502 None 响应：

r = self.req_session.get(url, proxies=self.proxies, verify='../secret/crawlera-ca.crt').text

追溯：

2020-11-04 14:27:55 [urllib3.connectionpool] DEBUG: https://www.yelp.com:443 "GET /biz/a-dog-in-motion-arcadia HTTP/1.1" 502 None

因此，蜘蛛似乎无法访问 URL，因为连接已关闭。

我在 Scrapy 和 Crawlera 文档中检查了 502 的含义，它指的是连接被拒绝、关闭、域不可用和类似的事情。我已经调试了与问题发生位置相关的代码，并且一切都是最新的。

如果有人对此有想法或知识，我很乐意听到，因为我被困住了。这里实际上可能是什么问题？

注意：当我在浏览器中打开 Yelp URL 时，它们可以正常工作。

scrapy request response crawlera

2020-11-04T15:03:39.667

问题标签 [crawlera]

Reference