问题标签 [crawlera]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

29 问题

0 投票

1 回答

24 浏览

web-scraping - 从scrapy shell获取https响应

我有一个蜘蛛，它在最初的几个步骤中从一个站点获取 cookie。我想获取 cookie，开始抓取，如果当前请求的 HTTP 状态 == 302，我想循环回 cookie 部分以刷新它们。如何将 HTTP 状态记录为 scrapy shell 中的变量，以添加“如果 http_status ==302，中断并返回步骤 1”？谢谢！

2020-11-13T17:37:33.607

0 投票

1 回答

127 浏览

web-scraping - 在抓取亚马逊时设置国家

我正在从亚马逊刮价格，一切正常，除了我面临位置问题，显然有些产品在美国以外不可用，所以当我的程序运行时它无法获取价格，我正在使用 Crawlera 作为美国 IP 代理，但对于少数请求它仍然失败。

有什么办法可以将它锁定在美国，使用发送 Cookie 或类似的东西。任何帮助或参考都会非常有帮助。提前致谢。

web-scraping scrapy crawlera

2020-11-23T12:31:13.747

0 投票

0 回答

309 浏览

puppeteer - Crawlera & Puppeteer - HTTPS 中的身份验证问题

在 crawlera & puppeteer 的基本示例中，代理的授权是这样完成的：

但它给出了错误：net::ERR_INVALID_ARGUMENT 我已经知道它是由铬引起的。在他们的源代码中，我发现了这个：

// 删除标头不能使预先存在的标头集不安全，但添加标头可以。

因此，我开始使用这个： await page.authenticate({ username:'<api_key>',password:'' });

它适用于 http 页面。但是使用 https 它会给出错误：net::ERR_UNEXPECTED_PROXY_AUTH

有谁知道如何解决这个问题？

我的版本：

无头Chrome/88.0.4298.0
木偶师：“版本”：“5.5.0”，

完整脚本：

puppeteer chromium crawlera

2020-11-27T20:41:15.727

0 投票

1 回答

304 浏览

python - Scrapy crawlera 身份验证问题

我一直在尝试使用scrapy-crawlera 作为使用scrapy 抓取一些数据的代理。我在 settings.py 中添加了这些行：

在新更改的 scrapinghub 网站 app.zyte.com 中，我创建了一个智能代理管理器帐户，我的 api 密钥来自我的帐户设置。

我收到此警告WARNING: Retrying crawlera request for authentication issue，并且网站没有被抓取。

有什么我做错了吗？

python web-scraping scrapy scrapinghub crawlera

2021-03-09T09:12:17.230

0 投票

0 回答

51 浏览

python - Scrapy Cloud 跳过循环

这个蜘蛛应该循环通过https://lihkg.com/thread/`2169007 - i*10`/page/1。但由于某种原因，它会跳过循环中的页面。

我查看了在 Scrapy Cloud 中抓取的项目，具有以下 url 的项目被抓取：

大约有一百万页被跳过。

这是代码：

我在项目中启用了 Crawlera、DeltaFetch 和 DotScrapy Persistence。

python for-loop scrapy scrapy-splash crawlera

2021-04-10T09:34:39.773

0 投票

0 回答

43 浏览

proxy - 使用 puppeteer 代理验证标头

尝试使用 puppeteer 和 crawlera 代理服务器设置代理，但是当尝试设置 Proxy-Authenticate 标头时，它给出错误错误：net::ERR_INVALID_ARGUMENT。puppeteer 不支持该标题还是什么？这是我的代码示例

proxy http-headers puppeteer crawlera

2021-07-04T15:32:37.470

0 投票

0 回答

26 浏览

python-3.x - Python selenium + Crawlera - x509：由未知权威签署的证书

我通过代理（zyte crawlera）使用 python Selenium，但是当我尝试连接到该网站时，我收到以下错误：

无法从上游获取：无法发送请求：x509：证书由未知机构签名

这是我的代码：

我运行 ChromeDriver 2.41.578700

python-3.x selenium proxy ssl-certificate crawlera

2021-08-17T02:06:37.470

0 投票

1 回答

242 浏览

python - 如何在启用 Zyte Smart Proxy Manager（前 Crawlera）的情况下使用 scrapy spider 进行身份验证？

我按照scrapy-zyte-smartproxy文档将代理使用集成到我的蜘蛛中。现在我的蜘蛛无法登录。

python scrapy crawlera

2021-08-18T18:57:47.453

0 投票

0 回答

29 浏览

selenium - 在 google research colab 中运行与智能代理管理器集成的 seleniumwire

当 seleniumwire 与谷歌研究 colab 中的智能代理管理器 (SPM) 集成时，我很想寻找可以使用旋转代理成功运行的解决方案。

我向 Zyte 技术团队寻求支持，他们在 collab 下搜索了所有选项以同时运行两个单元。!nohup 是他们发现的唯一选项，在这种情况下也没有帮助。不幸的是，他们无法找到任何解决方案来让它在合作中发挥作用。

他们没有太多关于如何在 google collab 上执行多个单元或在笔记本之间连接运行时的信息。他们甚至尝试直接从https://github.com/zytedata/zyte-smartproxy-headless-proxy/releases/tag/1.3.1下载二进制文件并运行它进行测试，但结果是一样的。

有没有人在使用 google colab 时尝试过同样的方法？请帮助获取有关 google collab 设置的更多信息。

selenium google-colaboratory google-chrome-headless seleniumwire crawlera

2021-12-30T10:20:32.020

1 2 3 4 5 6 7 8 9 10

问题标签 [crawlera]

Reference