问题标签 [crawlera]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
2526 浏览

python - 连接被对方​​拒绝:111:连接被拒绝。在 linux 服务器中使用 Scrapy Crawlera 时

Scrapy Crawlera 在我的 Windows 机器上运行良好,但是当我在我的 linux 服务器上运行它时出现错误 111。这是为什么?

当我使用 curl 时,我得到了这个错误: curl: (7) Failed connect to proxy.crawlera.com:8010; Connection refused

0 投票
1 回答
522 浏览

web-scraping - Linux 中的 Scrapy Splash + Crawlera 总是出现 503 服务不可用错误

当我在我的 Linux 服务器中使用 Scrapy Splash + Crawlera 时,它总是会出现 503 错误。它在 Windows 中运行良好。这是为什么?

0 投票
1 回答
62 浏览

python - 是否可以在同一个 Scrapy 蜘蛛中为不同的请求设置不同的设置?

我只想将 Crawlera 用于 Scrapy 蜘蛛中的某些请求。所以我想CRAWLERA_ENABLED为不同的请求设置不同的设置。是否可以?

0 投票
0 回答
405 浏览

python - Crawlera 代理无法与 python selenium 和 Chrome Web 驱动程序一起使用

我刚刚从 crawlera 购买了一个代理计划,根据他们的文档,使用 polipo 对我不起作用,根据 polipo 网站,它已经过时了。如何在 Selenium 和 Chrome 网络驱动程序中使用爬虫代理。这是我使用带有 selenium chrome web 驱动程序的代码的标准代理。

0 投票
2 回答
603 浏览

python - 在 Scrapy Splash 中使用 Crawlera lua 脚本时如何获取 session_id?

如您所知,当我们尝试将 Scrapy Splash 与 Crawlera 一起使用时,我们会使用此 lua 脚本:

该lua脚本中有一个session_id我非常需要的变量,但是我如何从Scrapy的响应中访问它?

我已经尝试过response.session_id,或者response.headers['X-Crawlera-Session']两者都不起作用。

0 投票
2 回答
621 浏览

python - scrapy-crawlera 是否处理 429 状态码?

想知道是否有人知道在使用 scrapy 时,scrapy-crawlera 中间件是否处理 429 状态码,或者我是否需要实现自己的重试逻辑?

我似乎在任何地方都找不到它的记录

0 投票
1 回答
743 浏览

python - 使用 Scrapy 和 Crawlera 抓取 HTTPS 页面

我想是否可以使用 scrapy + crawlera 来抓取 https 页面。到目前为止,我正在使用具有以下设置的 Python 请求:

我想通过 Scrapy 进入异步执行。我知道有scrapy-crawlera插件,但是当我有证书时我不知道如何配置它。此外,还有一件事困扰着我。Crawlera 有不同的定价计划。最基本的是 C10,它允许 10 个并发请求。这是什么意思?我需要CONCURRENT_REQUESTS=10在settings.py中设置吗?

0 投票
2 回答
603 浏览

scrapy - Scrapy spider 不能与 crawlera 中间件一起工作

我写了一个蜘蛛来抓取一个大型网站。我将它托管在 scrapehub 上,并且正在使用 crawlera 插件。没有 crawlera,我的蜘蛛在 scrapehub 上运行得很好。一旦我切换到 crawlera 中间件,蜘蛛就会退出而不进行一次爬行。

我已经在没有 crawlera 的情况下运行了蜘蛛,它在我的本地系统和 scrapehub 上运行,我唯一改变的是为 crawlera 启用了中间件。没有 crawlera 它运行,它不运行。我将并发请求设置为我的 C10 计划限制

这是没有爬虫中间件的同一个蜘蛛的日志

我在 python 中编写了一个脚本来测试我的 crawlera 连接

这行得通,但我一辈子都无法让爬虫与爬虫中间件一起工作。

我想使用 crawlera bc 获得相同的结果,而不会很快被禁止。

请帮忙。

0 投票
1 回答
148 浏览

web-scraping - 停止 Scrapy 请求管道几分钟并重试

我正在使用 Scrapy 和 Crawlera 代理抓取单个域,有时由于 Crawlera 问题(技术中断),我得到 407 状态代码并且无法抓取任何站点。是否可以停止请求管道 10 分钟然后重新启动蜘蛛?需要明确的是,我不想推迟请求,而是停止一切(可能除了项目处理)10 分钟,直到他们解决问题。我正在运行 10 个并发线程。

0 投票
0 回答
305 浏览

scrapy - scrapy-splash response.body 不包含 html

我试图在启动本地实例的同时使用 crawlera,这是我的 lua 脚本

结尾

这是我的 start_request

但它似乎不起作用,因为我在 self.parse(response) 中得到的 response.body 不包含 html。