问题标签 [scrapinghub]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

176 问题

0 投票

1 回答

649 浏览

mongodb - scrapy hub - exceptions.ImportError：没有名为 pymodm 的模块

我可以在本地运行我的 scrapy 没有任何问题，但是，当我尝试从 scrapinghub 运行作业时，我收到以下错误（连接到 mongo atlas cloud）：

我使用以下方式导入：

任何帮助深表感谢。

干杯

2017-03-26T23:04:58.703

0 投票

1 回答

180 浏览

python - 如何在 scrapinghub 中使用 peewee

我想使用 peewee 将我的数据保存到远程机器。当我运行我的爬虫时，我发现了以下错误，

任何建议都非常受欢迎。

python scrapy scrapinghub

2017-04-15T08:40:40.087

0 投票

1 回答

114 浏览

python - Scrapinghub：Dict_key 错误处理 | 检查密钥是否存在

我花了一段时间来理解 python-scrapinghubs 逻辑以及它与 Scrapinghubs API 交互的方式，但如果在我当前的故障排除中取得了进展......

利用 Scrapy，我列出了多个网络爬虫，其唯一功能是创建 m3u 播放列表。我从各种视频托管网站上抓取标题、视频源流 URL，如果特别是被抓取的网站需要它，那么它的类别也将部署到 scrapinghub。

在scrapinghub中部署时，我在自己的项目文件夹中创建的每个网站，项目中有各种其他scrapy项目（相关信息）。

使用 ScrapinghubClient 我首先遍历项目以获取所有作业密钥：

然后我使用 for 循环来获取每个项目 job.key

然后我通过将适当的 dict 键传递给文件来调用我的抓取内容（在本例中为打印）

这是问题开始的地方，当字典中不存在被调用的项目时，我需要能够处理错误我需要能够两个然后传递正在迭代的字典......从给定的代码片段来看，是字典不包含键值然后显然它只是停止......

那么我需要能够通过吗？或者使用 none 函数来检查密钥是否存在，如果然后......等等......我将如何处理这个？

python python-3.x dictionary scrapinghub

2017-04-18T02:59:35.523

0 投票

0 回答

312 浏览

selenium - Spider从本地机器和Scrapy Cloud返回不同的结果（phantomjs+selenium+crawlera）

你好！

向使用 scrapinghub、shub-image、selenuim+phantomjs、 crawlera 的人提问。 英文不好，不好意思

我需要抓取有很多 JS 代码的网站。所以我使用scrapy + selenium。此外，它应该在 Scrapy Cloud 上运行。我已经编写了使用 scrapy+selenuim+phantomjs 的蜘蛛并在我的本地机器上运行它。一切正常。然后我使用 shub-image 将项目部署到 Scrapy 云。部署没问题。但是 webdriver.page_source 的结果是不同的。在本地可以，在云端不行（带有铭文的 HTML - 403，请求 200 http）。然后我决定使用 crawlera acc。我已经添加了它：

适用于 Windows（本地）

对于 docker 实例

再次在当地一切都很好。云不好。我检查了 cralwera 的信息。没关系。请求从两者（本地和云）发送。

再次注意：相同的代理（crawlera）。在 Windows 上的响应：200 http，带有正确代码的 html

ScrapyCloud（docker 实例）的响应：200 http，带有铭文 403（禁止）的 html

我不明白出了什么问题。我认为这可能是 phantomjs 版本（Windows、Linux）之间的差异。

有任何想法吗？

selenium scrapy phantomjs scrapinghub

2017-04-20T03:30:26.247

0 投票

0 回答

56 浏览

python - ScrapinghubClient > 下载 CSV

我有一个关于通过 ScrapinghubClient 使用 ScrapingHub 的问题。有没有办法从所有已完成的作业中下载 csv 文件，然后直接从 python 中删除它们？谢谢！

python web-scraping scrapinghub

2017-05-12T11:49:27.573

0 投票

0 回答

47 浏览

python - scrapy 脚本在某些请求后停止

我有一个在scrapinghub 上运行的scrapy 脚本。刮板将一个参数作为存储 URL 的 csv 文件。该脚本运行没有错误，但问题是它没有从 url 中抓取所有项目。我不知道为什么会这样。日志也没有提供有关此的信息。任何人都可以对为什么会发生这种情况有任何想法吗？

python web-scraping scrapy-spider scrapinghub

2017-05-31T07:27:14.980

0 投票

2 回答

694 浏览

selenium - 如何在 Scrapinghub 上安装 xvfb 以使用 Selenium？

我在我的蜘蛛（Scrapy）中使用Python-Selenium ，为了使用 Selenium，我应该在Scrapinghub上安装 xvfb 。

当我apt-get用于安装 xvfb 时，出现以下错误消息：

有没有其他方法可以在Scrapinghub上安装xvfb？

更新 1

我读了这个，我尝试使用docker，我被困在这个阶段

我读了这个

如果您在运行 shub-image init 时遇到这样的 ImportError：您应该通过运行以下命令确保安装了最新版本的 shub：

$ pip install shub --upgrade

但我总是有这个错误

selenium selenium-webdriver scrapy xvfb scrapinghub

2017-06-09T15:17:13.390

0 投票

1 回答

733 浏览

python - 如何从 ScrapingHub 中提取文件？

我已经部署了一些 Scrapy 蜘蛛来抓取可以从 ScrapingHub 以 .csv 格式下载的数据。

其中一些蜘蛛有 FilePipeline，我用来将文件 (pdf) 下载到特定文件夹。有什么方法可以通过平台或 API 从 ScrapingHub 检索这些文件？

python scrapy web-crawler scrapinghub

2017-06-15T03:46:33.433

0 投票

1 回答

490 浏览

deployment - Scrapinghub无法连接？

我正在尝试使用他们提供的规则简单地将 Scrapy Spider 部署到 ScrapingHub。出于某种原因，它专门搜索 Python 3.6 目录，而它应该能够搜索任何 3.x Python 目录。我的蜘蛛是用 Python 3.5 编写的，这是一个问题。Scrapinghub 说识别“scrapy:1.4-py3”将适用于 3.x Python 集，但这显然不是真的。

另外，由于某种原因，它似乎在项目中找不到我的蜘蛛。这是否与 3.6 目录的问题有关。

最后，我已经安装了需求文件中所需的一切。

Scrapy.cfg 文件：

Scrapinghub.yml 代码：

文件夹图像

deployment scrapy scrapy-spider scrapinghub

2017-06-15T14:12:32.503

0 投票

1 回答

727 浏览

scrapy - 项目输出的顺序 | 刮擦

我正在使用 ScrapingHub API，并且正在使用 shub 来部署我的项目。但是，项目结果如下所示：

不幸的是，我按以下顺序需要它——> 标题、发布日期、描述、链接。我怎样才能让每个项目类的输出完全按照这个顺序排列？

下面是我的蜘蛛的一个简短示例：

另外，这是我附加的 items.py 文件，它与我的蜘蛛的顺序相同，所以我不知道为什么输出不按顺序。

项目.py：

我的代码的语法是为了项目和蜘蛛文件，我不知道如何修复它。我是一个新的python程序员。

scrapy web-crawler scrapinghub

2017-06-19T18:06:33.603

1 2 3 4 5 6 7 8 9 10

问题标签 [scrapinghub]

Reference