问题标签 [crawlera]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
web-scraping - 从scrapy shell获取https响应
我有一个蜘蛛,它在最初的几个步骤中从一个站点获取 cookie。我想获取 cookie,开始抓取,如果当前请求的 HTTP 状态 == 302,我想循环回 cookie 部分以刷新它们。如何将 HTTP 状态记录为 scrapy shell 中的变量,以添加“如果 http_status ==302,中断并返回步骤 1”?谢谢!
web-scraping - 在抓取亚马逊时设置国家
我正在从亚马逊刮价格,一切正常,除了我面临位置问题,显然有些产品在美国以外不可用,所以当我的程序运行时它无法获取价格,我正在使用 Crawlera 作为美国 IP 代理,但对于少数请求它仍然失败。
有什么办法可以将它锁定在美国,使用发送 Cookie 或类似的东西。任何帮助或参考都会非常有帮助。提前致谢。
puppeteer - Crawlera & Puppeteer - HTTPS 中的身份验证问题
在 crawlera & puppeteer 的基本示例中,代理的授权是这样完成的:
但它给出了错误:net::ERR_INVALID_ARGUMENT 我已经知道它是由铬引起的。在他们的源代码中,我发现了这个:
// 删除标头不能使预先存在的标头集不安全,但添加标头可以。
因此,我开始使用这个:
await page.authenticate({ username:'<api_key>',password:'' });
它适用于 http 页面。但是使用 https 它会给出错误:net::ERR_UNEXPECTED_PROXY_AUTH
有谁知道如何解决这个问题?
我的版本:
- 无头Chrome/88.0.4298.0
- 木偶师:“版本”:“5.5.0”,
完整脚本:
python - Scrapy crawlera 身份验证问题
我一直在尝试使用scrapy-crawlera 作为使用scrapy 抓取一些数据的代理。我在 settings.py 中添加了这些行:
在新更改的 scrapinghub 网站 app.zyte.com 中,我创建了一个智能代理管理器帐户,我的 api 密钥来自我的帐户设置。
我收到此警告WARNING: Retrying crawlera request for authentication issue
,并且网站没有被抓取。
有什么我做错了吗?
python - Scrapy Cloud 跳过循环
这个蜘蛛应该循环通过https://lihkg.com/thread/`2169007 - i*10`/page/1。但由于某种原因,它会跳过循环中的页面。
我查看了在 Scrapy Cloud 中抓取的项目,具有以下 url 的项目被抓取:
大约有一百万页被跳过。
这是代码:
我在项目中启用了 Crawlera、DeltaFetch 和 DotScrapy Persistence。
proxy - 使用 puppeteer 代理验证标头
尝试使用 puppeteer 和 crawlera 代理服务器设置代理,但是当尝试设置 Proxy-Authenticate 标头时,它给出错误错误:net::ERR_INVALID_ARGUMENT。puppeteer 不支持该标题还是什么?这是我的代码示例
python-3.x - Python selenium + Crawlera - x509:由未知权威签署的证书
我通过代理(zyte crawlera)使用 python Selenium,但是当我尝试连接到该网站时,我收到以下错误:
无法从上游获取:无法发送请求:x509:证书由未知机构签名
这是我的代码:
我运行 ChromeDriver 2.41.578700
python - 如何在启用 Zyte Smart Proxy Manager(前 Crawlera)的情况下使用 scrapy spider 进行身份验证?
我按照scrapy-zyte-smartproxy文档将代理使用集成到我的蜘蛛中。现在我的蜘蛛无法登录。
selenium - 在 google research colab 中运行与智能代理管理器集成的 seleniumwire
当 seleniumwire 与谷歌研究 colab 中的智能代理管理器 (SPM) 集成时,我很想寻找可以使用旋转代理成功运行的解决方案。
我向 Zyte 技术团队寻求支持,他们在 collab 下搜索了所有选项以同时运行两个单元。!nohup 是他们发现的唯一选项,在这种情况下也没有帮助。不幸的是,他们无法找到任何解决方案来让它在合作中发挥作用。
他们没有太多关于如何在 google collab 上执行多个单元或在笔记本之间连接运行时的信息。他们甚至尝试直接从https://github.com/zytedata/zyte-smartproxy-headless-proxy/releases/tag/1.3.1下载二进制文件并运行它进行测试,但结果是一样的。
有没有人在使用 google colab 时尝试过同样的方法?请帮助获取有关 google collab 设置的更多信息。