问题标签 [crawlera]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
24 浏览

web-scraping - 从scrapy shell获取https响应

我有一个蜘蛛,它在最初的几个步骤中从一个站点获取 cookie。我想获取 cookie,开始抓取,如果当前请求的 HTTP 状态 == 302,我想循环回 cookie 部分以刷新它们。如何将 HTTP 状态记录为 scrapy shell 中的变量,以添加“如果 http_status ==302,中断并返回步骤 1”?谢谢!

0 投票
1 回答
127 浏览

web-scraping - 在抓取亚马逊时设置国家

我正在从亚马逊刮价格,一切正常,除了我面临位置问题,显然有些产品在美国以外不可用,所以当我的程序运行时它无法获取价格,我正在使用 Crawlera 作为美国 IP 代理,但对于少数请求它仍然失败。

有什么办法可以将它锁定在美国,使用发送 Cookie 或类似的东西。任何帮助或参考都会非常有帮助。提前致谢。

0 投票
0 回答
309 浏览

puppeteer - Crawlera & Puppeteer - HTTPS 中的身份验证问题

在 crawlera & puppeteer 的基本示例中,代理的授权是这样完成的:

但它给出了错误:net::ERR_INVALID_ARGUMENT 我已经知道它是由铬引起的。在他们的源代码中,我发现了这个:

// 删除标头不能使预先存在的标头集不安全,但添加标头可以。

因此,我开始使用这个: await page.authenticate({ username:'<api_key>',password:'' });

它适用于 http 页面。但是使用 https 它会给出错误:net::ERR_UNEXPECTED_PROXY_AUTH

有谁知道如何解决这个问题?

我的版本:

  • 无头Chrome/88.0.4298.0
  • 木偶师:“版本”:“5.5.0”,

完整脚本:

0 投票
1 回答
304 浏览

python - Scrapy crawlera 身份验证问题

我一直在尝试使用scrapy-crawlera 作为使用scrapy 抓取一些数据的代理。我在 settings.py 中添加了这些行:

在新更改的 scrapinghub 网站 app.zyte.com 中,我创建了一个智能代理管理器帐户,我的 api 密钥来自我的帐户设置。

我收到此警告WARNING: Retrying crawlera request for authentication issue,并且网站没有被抓取。

有什么我做错了吗?

0 投票
0 回答
51 浏览

python - Scrapy Cloud 跳过循环

这个蜘蛛应该循环通过https://lihkg.com/thread/`2169007 - i*10`/page/1。但由于某种原因,它会跳过循环中的页面。

我查看了在 Scrapy Cloud 中抓取的项目,具有以下 url 的项目被抓取:

大约有一百万页被跳过。

这是代码:

我在项目中启用了 Crawlera、DeltaFetch 和 DotScrapy Persistence。

0 投票
0 回答
43 浏览

proxy - 使用 puppeteer 代理验证标头

尝试使用 puppeteer 和 crawlera 代理服务器设置代理,但是当尝试设置 Proxy-Authenticate 标头时,它给出错误错误:net::ERR_INVALID_ARGUMENT。puppeteer 不支持该标题还是什么?这是我的代码示例

0 投票
0 回答
26 浏览

python-3.x - Python selenium + Crawlera - x509:由未知权威签署的证书

我通过代理(zyte crawlera)使用 python Selenium,但是当我尝试连接到该网站时,我收到以下错误:

无法从上游获取:无法发送请求:x509:证书由未知机构签名

这是我的代码:

我运行 ChromeDriver 2.41.578700

0 投票
1 回答
242 浏览

python - 如何在启用 Zyte Smart Proxy Manager(前 Crawlera)的情况下使用 scrapy spider 进行身份验证?

我按照scrapy-zyte-smartproxy文档将代理使用集成到我的蜘蛛中。现在我的蜘蛛无法登录。

0 投票
0 回答
29 浏览

selenium - 在 google research colab 中运行与智能代理管理器集成的 seleniumwire

当 seleniumwire 与谷歌研究 colab 中的智能代理管理器 (SPM) 集成时,我很想寻找可以使用旋转代理成功运行的解决方案。

我向 Zyte 技术团队寻求支持,他们在 collab 下搜索了所有选项以同时运行两个单元。!nohup 是他们发现的唯一选项,在这种情况下也没有帮助。不幸的是,他们无法找到任何解决方案来让它在合作中发挥作用。

他们没有太多关于如何在 google collab 上执行多个单元或在笔记本之间连接运行时的信息。他们甚至尝试直接从https://github.com/zytedata/zyte-smartproxy-headless-proxy/releases/tag/1.3.1下载二进制文件并运行它进行测试,但结果是一样的。

有没有人在使用 google colab 时尝试过同样的方法?请帮助获取有关 google collab 设置的更多信息。