问题标签 [scrapinghub]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
649 浏览

mongodb - scrapy hub - exceptions.ImportError:没有名为 pymodm 的模块

我可以在本地运行我的 scrapy 没有任何问题,但是,当我尝试从 scrapinghub 运行作业时,我收到以下错误(连接到 mongo atlas cloud):

我使用以下方式导入:

任何帮助深表感谢。

干杯

0 投票
1 回答
180 浏览

python - 如何在 scrapinghub 中使用 peewee

我想使用 peewee 将我的数据保存到远程机器。当我运行我的爬虫时,我发现了以下错误,

任何建议都非常受欢迎。

0 投票
1 回答
114 浏览

python - Scrapinghub:Dict_key 错误处理 | 检查密钥是否存在

我花了一段时间来理解 python-scrapinghubs 逻辑以及它与 Scrapinghubs API 交互的方式,但如果在我当前的故障排除中取得了进展......

利用 Scrapy,我列出了多个网络爬虫,其唯一功能是创建 m3u 播放列表。我从各种视频托管网站上抓取标题、视频源流 URL,如果特别是被抓取的网站需要它,那么它的类别也将部署到 scrapinghub。

在scrapinghub中部署时,我在自己的项目文件夹中创建的每个网站,项目中有各种其他scrapy项目(相关信息)。

使用 ScrapinghubClient 我首先遍历项目以获取所有作业密钥:

然后我使用 for 循环来获取每个项目 job.key

然后我通过将适当的 dict 键传递给文件来调用我的抓取内容(在本例中为打印)

这是问题开始的地方,当字典中不存在被调用的项目时,我需要能够处理错误我需要能够两个然后传递正在迭代的字典......从给定的代码片段来看,是字典不包含键值然后显然它只是停止......

那么我需要能够通过吗?或者使用 none 函数来检查密钥是否存在,如果然后......等等......我将如何处理这个?

0 投票
0 回答
312 浏览

selenium - Spider从本地机器和Scrapy Cloud返回不同的结果(phantomjs+selenium+crawlera)

你好!

向使用 scrapinghub、shub-image、selenuim+phantomjs、 crawlera 的人提问。 英文不好,不好意思

我需要抓取有很多 JS 代码的网站。所以我使用scrapy + selenium。此外,它应该在 Scrapy Cloud 上运行。我已经编写了使用 scrapy+selenuim+phantomjs 的蜘蛛并在我的本地机器上运行它。一切正常。然后我使用 shub-image 将项目部署到 Scrapy 云。部署没问题。但是 webdriver.page_source 的结果是不同的。在本地可以,在云端不行(带有铭文的 HTML - 403,请求 200 http)。然后我决定使用 crawlera acc。我已经添加了它:

适用于 Windows(本地)

对于 docker 实例

再次在当地一切都很好。云不好。我检查了 cralwera 的信息。没关系。请求从两者(本地和云)发送。

再次注意:相同的代理(crawlera)。在 Windows 上的响应:200 http,带有正确代码的 html

ScrapyCloud(docker 实例)的响应:200 http,带有铭文 403(禁止)的 html

我不明白出了什么问题。我认为这可能是 phantomjs 版本(Windows、Linux)之间的差异。

有任何想法吗?

0 投票
0 回答
56 浏览

python - ScrapinghubClient > 下载 CSV

我有一个关于通过 ScrapinghubClient 使用 ScrapingHub 的问题。有没有办法从所有已完成的作业中下载 csv 文件,然后直接从 python 中删除它们?谢谢!

0 投票
0 回答
47 浏览

python - scrapy 脚本在某些请求后停止

我有一个在scrapinghub 上运行的scrapy 脚本。刮板将一个参数作为存储 URL 的 csv 文件。该脚本运行没有错误,但问题是它没有从 url 中抓取所有项目。我不知道为什么会这样。日志也没有提供有关此的信息。任何人都可以对为什么会发生这种情况有任何想法吗?

0 投票
2 回答
694 浏览

selenium - 如何在 Scrapinghub 上安装 xvfb 以使用 Selenium?

我在我的蜘蛛(Scrapy)中使用Python-Selenium ,为了使用 Selenium,我应该在Scrapinghub上安装 xvfb 。

当我apt-get用于安装 xvfb 时,出现以下错误消息:

有没有其他方法可以 在Scrapinghub上安装xvfb

更新 1

我读了这个,我尝试使用docker,我被困在这个阶段

我读了这个

如果您在运行 shub-image init 时遇到这样的 ImportError:您应该通过运行以下命令确保安装了最新版本的 shub:

$ pip install shub --upgrade

但我总是有这个错误

0 投票
1 回答
733 浏览

python - 如何从 ScrapingHub 中提取文件?

我已经部署了一些 Scrapy 蜘蛛来抓取可以从 ScrapingHub 以 .csv 格式下载的数据。

其中一些蜘蛛有 FilePipeline,我用来将文件 (pdf) 下载到特定文件夹。有什么方法可以通过平台或 API 从 ScrapingHub 检索这些文件?

0 投票
1 回答
490 浏览

deployment - Scrapinghub无法连接?

我正在尝试使用他们提供的规则简单地将 Scrapy Spider 部署到 ScrapingHub。出于某种原因,它专门搜索 Python 3.6 目录,而它应该能够搜索任何 3.x Python 目录。我的蜘蛛是用 Python 3.5 编写的,这是一个问题。Scrapinghub 说识别“scrapy:1.4-py3”将适用于 3.x Python 集,但这显然不是真的。

另外,由于某种原因,它似乎在项目中找不到我的蜘蛛。这是否与 3.6 目录的问题有关。

最后,我已经安装了需求文件中所需的一切。

Scrapy.cfg 文件:

Scrapinghub.yml 代码:

文件夹图像

0 投票
1 回答
727 浏览

scrapy - 项目输出的顺序 | 刮擦

我正在使用 ScrapingHub API,并且正在使用 shub 来部署我的项目。但是,项目结果如下所示:

示例项目输出

不幸的是,我按以下顺序需要它——> 标题、发布日期、描述、链接。我怎样才能让每个项目类的输出完全按照这个顺序排列?

下面是我的蜘蛛的一个简短示例:

另外,这是我附加的 items.py 文件,它与我的蜘蛛的顺序相同,所以我不知道为什么输出不按顺序。

项目.py:

我的代码的语法是为了项目和蜘蛛文件,我不知道如何修复它。我是一个新的python程序员。