问题标签 [scrapinghub]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
247 浏览

python - 如何将数据传递给scrapinghub?

我正在尝试在scrapinghub 上运行一个scrapy spider,并且我想传入一些数据。我正在使用他们的 API 来运行蜘蛛:

http://doc.scrapinghub.com/api/jobs.html#jobs-run-json

他们有一个job_settings似乎相关的选项,但我不知道如何访问job_settingsSpider班级中的数据。这里的正确方法是什么?

0 投票
1 回答
653 浏览

python - 无法部署到 Scrapinghub

当我尝试使用 部署时shub deploy,出现此错误:

删除中间容器 fccf1ec715e6 第 10 步:运行 sudo -u nobody -E PYTHONUSERBASE=$PYTHONUSERBASE pip install --user --no-cache-dir -r /app/requirements.txt ---> 在 729e0d414f46 中运行 给出双重要求:attrs ==16.1.0(来自 -r /app/requirements.txt(第 51 行))(已经在 attrs==16.0.0(来自 -r /app/requirements.txt(第 1 行)),name='attrs' )

{"message": "命令 '/bin/sh -c sudo -u nobody -E PYTHONUSERBASE=$PYTHONUSERBASE pip install --user --no-cache-dir -r /app/requirements.txt' 返回了一个非零代码:1”,“详细信息”:{“消息”:“命令 '/bin/sh -c sudo -u nobody -E PYTHONUSERBASE=$PYTHONUSERBASE pip install --user --no-cache-dir -r / app/requirements.txt' 返回一个非零代码:1"}, "error": "build_error"}

{"message": "Internal build error", "status": "error"} 部署日志位置:c:\users\dr521f~1.pri\appdata\local\temp\shub_deploy_pvx7dk.log 错误:部署失败:{"消息”:“内部构建错误”,“状态”:“错误”}

这是我的requirements.txt

为什么我不能部署?

0 投票
0 回答
284 浏览

python - 波西亚蜘蛛不爬行物品

我已经使用 Portia UI 创建了一个蜘蛛,并且我已经使用 scrapyd 在我的一个虚拟机中进行了部署和调度。Spider 运行良好并抓取了网站内容。

但是当我尝试使用scrapyd在另一个类似的虚拟机中部署和调度同一个蜘蛛时,蜘蛛运行良好但没有抓取任何内容。

两台机器具有相似的配置、设置、软件包和版本。

可能的问题是什么?

编辑
我已经完成了以下操作
- 使用 docker 在我的机器中安装了所有 Portia 包
- 创建了一个蜘蛛(比如 myspider)
- 使用 scrapyd 部署并安排了该蜘蛛
- 从蜘蛛运行中提取了内容
- 克隆了机器并添加到另一个具有不同的网络ISP
- 部署了相同的蜘蛛(myspider)
- 蜘蛛运行良好,但网站内容未提取
- 我创建了一个具有不同 URL 的新蜘蛛,并且该蜘蛛正在正常抓取网站内容

0 投票
0 回答
199 浏览

python - 如何在 docker 中为 scrapinghub portia 编辑文件

我创建了一个管道来将爬取的项目存储在 JSON 文件中,并将管道添加到路径中/slybot/slybot/mypipeline.py

之后,我使用 docker 安装了 Portia 包。安装成功。然后我使用安装文档页面中给出的命令启动了 portia,
docker run -i -t --rm -v <PROJECT_FOLDER>/data:/app/slyd/data:rw -p 9001:9001 --name portia portia
我可以在浏览器中加载 portia。我创造了一只蜘蛛。当我尝试运行蜘蛛时,我在管道文件中遇到了错误。

现在我想编辑该文件并修复错误。

我试图将管道从容器复制到本地主机,并通过引用docker copy page再次将其复制到容器中。

但是当我再次运行命令
docker run -i -t --rm -v <PROJECT_FOLDER>/data:/app/slyd/data:rw -p 9001:9001 --name portia portia并创建一个蜘蛛并尝试运行该蜘蛛时。而且似乎管道文件没有更新。

我发现每次运行 portia run 命令时,都会创建新容器,现在我认为在容器中编辑该管道文件对我不起作用。我对么?

如何在 docker 中单独编辑管道文件而不在 docker 中再次构建 portia?

0 投票
1 回答
417 浏览

python-2.7 - 无法将项目部署到 Scrapy Cloud

我对蜘蛛进行了更改以使用 scrapinghub API 的某些方法,并尝试使用“shub deploy”将其重新部署到 Scrapy Cloud。我收到一个错误:ImportError: No module named scrapinghub

它指向蜘蛛中的导入行

shub 版本 2.5.0 scrapinghub (1.9.0)

我能够在本地运行蜘蛛。

任何想法是什么问题?

0 投票
2 回答
843 浏览

scrapinghub - scrapinghub:从所有已完成的作业中下载所有项目

我使用 scrapinghub 已经有一段时间了。我有一些蜘蛛每天都在工作。每个周末我都会登录以收集抓取的数据。所以我最终不得不一次打开一个蜘蛛超过七个作业,下载数据并移动到下一个,然后是下一个蜘蛛,依此类推。有没有办法一次获取蜘蛛已完成作业的所有提取数据?

0 投票
1 回答
1867 浏览

python-2.7 - ValueError:请求 url 中缺少方案:h

我是scrapy,python的初学者。我尝试在scrapinghub中部署spider代码,遇到如下错误。下面是代码。

是我的 spider.py 代码

是 items.py 代码和

是 setup.py 代码。

以下是错误。

Traceback(最近一次调用最后一次):文件“/usr/local/lib/python2.7/site-packages/scrapy/core/engine.py”,第 126 行,在 _next_request request = next(slot.start_requests) 文件“/ usr/local/lib/python2.7/site-packages/scrapy/spiders/ init .py”,第 70 行,在 start_requests 中产生 self.make_requests_from_url(url) 文件“/usr/local/lib/python2.7/site- packages/scrapy/spiders/ init .py”,第 73 行,在 make_requests_from_url 返回 Request(url, dont_filter=True) 文件“ /usr/local/lib/python2.7/site-packages/scrapy/http/request/init。 py”,第 25 行,在init self._set_url(url) 文件“ /usr/local/lib/python2.7/site-packages/scrapy/http/request/init.py",第 57 行,在 _set_url 中引发 ValueError('请求 url 中缺少方案:%s' % self._url) ValueError:请求 url 中缺少方案:h

先感谢您

0 投票
4 回答
4283 浏览

python-3.x - 使用 CrawlerProcess.crawl() 从脚本将 custom_settings 传递给蜘蛛

我正在尝试通过脚本以编程方式调用蜘蛛。我无法使用 CrawlerProcess 通过构造函数覆盖设置。让我用用于从官方scrapy 站点抓取引号的默认蜘蛛来说明这一点(官方scrapy 引号示例蜘蛛的最后一个代码片段)。

这是我尝试运行引号蜘蛛的脚本

0 投票
1 回答
682 浏览

python - 尝试部署到 Scrapy Cloud 时出现需求错误

我正在尝试使用 shub 将我的蜘蛛部署到 Scrapy Cloud,但我一直遇到以下错误:

它看起来像一个过时的包的简单问题(六)。但是安装的包实际上是最新的:

我在 Mac 上通过 pyenv 运行 python 3.6。有任何想法吗?

编辑:

我的requirements.txt文件仅包含以下依赖项:

编辑2:scrapinghub.yml

谢谢,西蒙!

0 投票
1 回答
173 浏览

python - python-scrapinghub,ascii / utf8?

Python 3.4.2

我正在使用 Scrapinghub API 的客户端接口,可以在这里找到:

https://github.com/scrapinghub/python-scrapinghub

我刮了一个网站,想要获取并打印这些项目

在 python 解释器中,这工作正常,但是当我在脚本中导出我的代码(fe 'test.py' 并使用 'python3 test.py' 运行它时,会发生错误,它说:

第 24 行的文本是这样的: [ ... ] Tobias Weiß [...]

我已经运行了“dpkg-reconfigure locales”并将其设置为“de_DE.UTF-8 UTF-8”,但这似乎不是问题。

对于每个结果,我是否必须将项目 dict 转换为 utf8,或者是否有其他我看不到的解决方案。

问候