问题标签 [scrapinghub]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
465 浏览

python-2.7 - Scrapy 如何在蜘蛛运行之间保存状态(通过 scrapinghub)?

我有一个会按计划运行的蜘蛛。蜘蛛输入基于日期。从上次刮擦的日期到今天的日期。那么问题是如何在 Scrapy 项目中保存最后一次抓取的日期?有一个选项可以使用 pkjutil 模块从 scrapy 设置中获取数据,但我在文档中没有找到关于如何在该文件中写入数据的任何参考。任何想法?也许是另一种选择?PS我的另一个选择是为此使用一些免费的远程MySql DB。但如果有简单的解决方案,看起来工作量更大。

上述解决方案在本地运行时工作正常。但是在 Scrapinghub 运行代码时,我没有得到这样的文件或目录。

0 投票
0 回答
89 浏览

python - Scrapinghub 已爬取 0 页(以 0 页/分钟)

我开发了一个简单的scrapy项目来抓取一个网站。爬虫在我的本地机器上运行良好,但是当我尝试将它部署到由 scrapinghub.com 提供的 Scrapy 云时,蜘蛛显示爬取了 0 个页面,并在 180 秒(默认超时)后停止。它可能有什么问题?我可以尝试增加超时,但我认为是 180 秒。是爬虫从网站获得响应的足够长的时间。

0 投票
1 回答
319 浏览

python - 无法使用 shub-image 运行/部署自定义脚本

我在使用shub-image运行/部署自定义脚本时遇到问题。

安装程序.py

在这个文件中我有

谁是我想要发送的不同文件

我用这个命令部署

在我使用shub-image版本 0.2.5 和 shub 版本 2.5.1 之前,它运行良好。

但是现在我使用的是shub 2.7.0版(shub 映像现在是 shub 2.70+的一部分)并且我无法部署我的脚本。

没有错误,我很好地转移了我的蜘蛛,但没有转移bin 文件夹中的文件。

任何意见和建议将不胜感激

0 投票
1 回答
779 浏览

amazon-s3 - 导出 Scrapy JSON 源 - 使用 ScrapingHub 的 AWS S3 的动态 FEED_URI 失败

JsonItemExporter我已经编写了一个使用 ScrapingHub 中的以下 Spider Settings 将数据导出到 AWS S3的 scrapy scraper

我需要做的是在输出文件上动态设置日期/时间,如果它使用这样的日期和时间格式,我会喜欢它,jobs-20171215-1000.json但我不知道如何使用 scrapinghub 设置动态 FEED_URI。

网上信息不多,我能找到的唯一例子是在抓取中心网站上,但不幸的是它不起作用。

当我根据文档中的示例应用这些设置时

注意我的 URI 中的 %(time)

抓取失败并出现以下错误

0 投票
1 回答
1022 浏览

python - 无法使用 scrapy 框架抓取 myntra API 数据 307 重定向错误

下面是蜘蛛代码:

“Parsed jabong.com”没有被记录。实际上,回调方法(解析)没有被调用。请回复。

请从抓取中心找到错误日志:

另见邮递员截图

0 投票
0 回答
834 浏览

python - 使用有状态会话抓取并发请求

我从事网络抓取已经有一段时间了,但对 python 比较陌生,最近将我所有的抓取活动从 ruby​​ 切换到 python,主要是因为 scrapy 和 scrapinghub 似乎为大规模生产化抓取提供了更好的支持。

在抓取电子商务网站时,我经常遇到的一个问题是许多似乎使用“有状态”会话,即除非您发送从先前响应返回的相同 cookie,否则下一个请求可能会被阻止。特别是,许多使用IBM Websphere的站点都表现出这种行为。

考虑到它使用并发异步请求,这成为scrapy 的一个问题。

这些网站中的大多数都需要加载 JS 才能设置初始 cookie,所以我的方法是使用 Selenium(无头 chromedriver)加载初始页面,然后将 cookie 传递给普通的香草 scrapy 请求。

当在 scrapy 配置文件中将 CONCURRENT_REQUESTS 设置为 1 时,这种方法完全可以正常工作。然而,这消除了所有并发性,显然大大减慢了抓取速度。

我知道scrapy 已经发布了下载器中间件功能,允许在请求中命名cookiejar,然后传递给后续请求。我也读过这篇文章。然而,这似乎并不能解决我的问题 - 我只能假设因为并发性会导致 cookiejar 同时重复使用多次,即使您创建几个不同的 cookiejar 作为起点也是如此。

有人对如何解决这个问题有想法吗?

理想情况下,我想创建与 CONCURRENT_REQUESTS 设置(例如 16)相同数量的会话 cookiejars,但是如何确保每个 cookiejar 一次最多使用一次,然后将响应 cookie 传递给下一个请求。

我知道 Twisted 不使用线程,但是为 N 个 cookiejar 中的每一个创建一个信号量并让请求等到它未使用后再发送下一个请求是否有意义?

0 投票
2 回答
834 浏览

web-scraping - 特定站点的 Scrapy 和 Splash 超时

我在尝试从该站点Scrapy获取响应时遇到Crawlera了问题。Splash

我没有运气就尝试了以下方法:

  • Scrapy外壳 - 超时
  • Scrapy+ Crawlera- 超时
  • ScrapinghubSplash实例(小) - 超时

但是我可以使用Selenium. 但我想摆脱它并Splash改用它。

是否有避免这些超时的解决方法?

笔记:

如果我使用由水族馆Splash设置的本地实例,则站点会加载,尽管与 Firefox webdriver 的 10 秒相比,它仍然需要 20 多秒。

0 投票
0 回答
190 浏览

python - 在 Scrapinghub 上写入文件的正确方法是什么?

我使用 Python-Scrapy 和 Scrapinghub。

在我的蜘蛛中,我应该读写一个文件

当我在我的服务器上运行我的蜘蛛时,它可以工作,但是在 Scrapinghub 上我无法读取或写入任何文件。

我阅读了文档 ,但没有找到如何在Scrapinghub中写入文件。我的问题是在 Scrapinghub 上写文件的正确方法是什么

0 投票
0 回答
1055 浏览

python - Pygsheets 无法在 www.googleapis.com 上找到服务器

我正在尝试pygsheets在 ScrapingHub 上的脚本中使用。脚本的pygsheets部分开始于:

CREDENTIALS_FILENAME我的 Google 服务帐户凭据文件名和SHEET_ID电子表格 ID在哪里?在某些时候,这种情况正在发生:

我之前测试过脚本并且它曾经可以工作,所以我不知道发生了什么。这是怎么回事?我错过了一些配置或身份验证步骤?

0 投票
2 回答
940 浏览

web-scraping - 自动解析网站

我有个想法,想看看能不能实现。我想解析一个网站(copart.com),该网站每天显示不同的大型汽车列表以及每辆车的相应描述。每天,我的任务是检查每个列表(每个列表包含数百辆汽车)并选择满足特定要求(品牌、年份等)的每辆汽车。我想知道是否可以创建一个工具来自动解析这些列表,然后选择符合我标准的汽车。我在考虑类似 ParseHub 之类的网站抓取工具,但我并没有尝试提取数据。我只是想要一个可以浏览网站并自动单击每辆符合我标准的汽车上的“选择”按钮的工具。这将每天为我节省大量时间。谢谢。