“scrapinghub”的相关标签问题

0 投票

1 回答

247 浏览

python - 如何将数据传递给scrapinghub？

我正在尝试在scrapinghub 上运行一个scrapy spider，并且我想传入一些数据。我正在使用他们的 API 来运行蜘蛛：

http://doc.scrapinghub.com/api/jobs.html#jobs-run-json

他们有一个job_settings似乎相关的选项，但我不知道如何访问job_settings我Spider班级中的数据。这里的正确方法是什么？

2016-08-31T23:18:42.997

0 投票

1 回答

653 浏览

python - 无法部署到 Scrapinghub

当我尝试使用部署时shub deploy，出现此错误：

删除中间容器 fccf1ec715e6 第 10 步：运行 sudo -u nobody -E PYTHONUSERBASE=$PYTHONUSERBASE pip install --user --no-cache-dir -r /app/requirements.txt ---> 在 729e0d414f46 中运行给出双重要求：attrs ==16.1.0（来自 -r /app/requirements.txt（第 51 行））（已经在 attrs==16.0.0（来自 -r /app/requirements.txt（第 1 行）），name='attrs' )

{"message": "命令 '/bin/sh -c sudo -u nobody -E PYTHONUSERBASE=$PYTHONUSERBASE pip install --user --no-cache-dir -r /app/requirements.txt' 返回了一个非零代码：1”，“详细信息”：{“消息”：“命令 '/bin/sh -c sudo -u nobody -E PYTHONUSERBASE=$PYTHONUSERBASE pip install --user --no-cache-dir -r / app/requirements.txt' 返回一个非零代码：1"}, "error": "build_error"}

{"message": "Internal build error", "status": "error"} 部署日志位置：c:\users\dr521f~1.pri\appdata\local\temp\shub_deploy_pvx7dk.log 错误：部署失败：{"消息”：“内部构建错误”，“状态”：“错误”}

这是我的requirements.txt：

为什么我不能部署？

python deployment web-scraping scrapy scrapinghub

2016-09-19T04:50:03.897

0 投票

0 回答

284 浏览

python - 波西亚蜘蛛不爬行物品

我已经使用 Portia UI 创建了一个蜘蛛，并且我已经使用 scrapyd 在我的一个虚拟机中进行了部署和调度。Spider 运行良好并抓取了网站内容。

但是当我尝试使用scrapyd在另一个类似的虚拟机中部署和调度同一个蜘蛛时，蜘蛛运行良好但没有抓取任何内容。

两台机器具有相似的配置、设置、软件包和版本。

可能的问题是什么？

编辑
我已经完成了以下操作
- 使用 docker 在我的机器中安装了所有 Portia 包
- 创建了一个蜘蛛（比如 myspider）
- 使用 scrapyd 部署并安排了该蜘蛛
- 从蜘蛛运行中提取了内容
- 克隆了机器并添加到另一个具有不同的网络ISP
- 部署了相同的蜘蛛（myspider）
- 蜘蛛运行良好，但网站内容未提取
- 我创建了一个具有不同 URL 的新蜘蛛，并且该蜘蛛正在正常抓取网站内容

python scrapy scrapyd portia scrapinghub

2016-11-02T13:25:23.793

0 投票

0 回答

199 浏览

python - 如何在 docker 中为 scrapinghub portia 编辑文件

我创建了一个管道来将爬取的项目存储在 JSON 文件中，并将管道添加到路径中/slybot/slybot/mypipeline.py

之后，我使用 docker 安装了 Portia 包。安装成功。然后我使用安装文档页面中给出的命令启动了 portia，
docker run -i -t --rm -v <PROJECT_FOLDER>/data:/app/slyd/data:rw -p 9001:9001 --name portia portia
我可以在浏览器中加载 portia。我创造了一只蜘蛛。当我尝试运行蜘蛛时，我在管道文件中遇到了错误。

现在我想编辑该文件并修复错误。

我试图将管道从容器复制到本地主机，并通过引用docker copy page再次将其复制到容器中。

但是当我再次运行命令
docker run -i -t --rm -v <PROJECT_FOLDER>/data:/app/slyd/data:rw -p 9001:9001 --name portia portia并创建一个蜘蛛并尝试运行该蜘蛛时。而且似乎管道文件没有更新。

我发现每次运行 portia run 命令时，都会创建新容器，现在我认为在容器中编辑该管道文件对我不起作用。我对么？

如何在 docker 中单独编辑管道文件而不在 docker 中再次构建 portia？

python docker docker-container portia scrapinghub

2016-11-24T12:13:09.577

0 投票

1 回答

417 浏览

python-2.7 - 无法将项目部署到 Scrapy Cloud

我对蜘蛛进行了更改以使用 scrapinghub API 的某些方法，并尝试使用“shub deploy”将其重新部署到 Scrapy Cloud。我收到一个错误：ImportError: No module named scrapinghub

它指向蜘蛛中的导入行

shub 版本 2.5.0 scrapinghub (1.9.0)

我能够在本地运行蜘蛛。

任何想法是什么问题？

python-2.7 scrapy scrapy-spider scrapinghub

2016-12-28T16:02:15.893

0 投票

2 回答

843 浏览

scrapinghub - scrapinghub：从所有已完成的作业中下载所有项目

我使用 scrapinghub 已经有一段时间了。我有一些蜘蛛每天都在工作。每个周末我都会登录以收集抓取的数据。所以我最终不得不一次打开一个蜘蛛超过七个作业，下载数据并移动到下一个，然后是下一个蜘蛛，依此类推。有没有办法一次获取蜘蛛已完成作业的所有提取数据？

scrapinghub

2017-01-21T08:28:11.413

0 投票

1 回答

1867 浏览

python-2.7 - ValueError：请求 url 中缺少方案：h

我是scrapy，python的初学者。我尝试在scrapinghub中部署spider代码，遇到如下错误。下面是代码。

是我的 spider.py 代码

是 items.py 代码和

是 setup.py 代码。

以下是错误。

Traceback（最近一次调用最后一次）：文件“/usr/local/lib/python2.7/site-packages/scrapy/core/engine.py”，第 126 行，在 _next_request request = next(slot.start_requests) 文件“/ usr/local/lib/python2.7/site-packages/scrapy/spiders/ init .py”，第 70 行，在 start_requests 中产生 self.make_requests_from_url(url) 文件“/usr/local/lib/python2.7/site- packages/scrapy/spiders/ init .py”，第 73 行，在 make_requests_from_url 返回 Request(url, dont_filter=True) 文件“ /usr/local/lib/python2.7/site-packages/scrapy/http/request/init。 py”，第 25 行，在init self._set_url(url) 文件“ /usr/local/lib/python2.7/site-packages/scrapy/http/request/init.py"，第 57 行，在 _set_url 中引发 ValueError('请求 url 中缺少方案：%s' % self._url) ValueError：请求 url 中缺少方案：h

先感谢您

python-2.7 scrapy scrapinghub

2017-02-14T07:15:10.030

0 投票

4 回答

4283 浏览

python-3.x - 使用 CrawlerProcess.crawl() 从脚本将 custom_settings 传递给蜘蛛

我正在尝试通过脚本以编程方式调用蜘蛛。我无法使用 CrawlerProcess 通过构造函数覆盖设置。让我用用于从官方scrapy 站点抓取引号的默认蜘蛛来说明这一点（官方scrapy 引号示例蜘蛛的最后一个代码片段）。

这是我尝试运行引号蜘蛛的脚本

python-3.x web-scraping scrapy scrapy-spider scrapinghub

2017-02-28T14:48:20.520

0 投票

1 回答

682 浏览

python - 尝试部署到 Scrapy Cloud 时出现需求错误

我正在尝试使用 shub 将我的蜘蛛部署到 Scrapy Cloud，但我一直遇到以下错误：

它看起来像一个过时的包的简单问题（六）。但是安装的包实际上是最新的：

我在 Mac 上通过 pyenv 运行 python 3.6。有任何想法吗？

编辑：

我的requirements.txt文件仅包含以下依赖项：

编辑2：scrapinghub.yml

谢谢，西蒙！

python web-scraping scrapy scrapinghub

2017-03-07T14:37:45.520

0 投票

1 回答

173 浏览

python - python-scrapinghub，ascii / utf8？

Python 3.4.2

我正在使用 Scrapinghub API 的客户端接口，可以在这里找到：

https://github.com/scrapinghub/python-scrapinghub

我刮了一个网站，想要获取并打印这些项目

在 python 解释器中，这工作正常，但是当我在脚本中导出我的代码（fe 'test.py' 并使用 'python3 test.py' 运行它时，会发生错误，它说：

第 24 行的文本是这样的： [ ... ] Tobias Weiß [...]

我已经运行了“dpkg-reconfigure locales”并将其设置为“de_DE.UTF-8 UTF-8”，但这似乎不是问题。

对于每个结果，我是否必须将项目 dict 转换为 utf8，或者是否有其他我看不到的解决方案。

问候

python utf-8 python-3.4 scrapinghub

2017-03-17T14:59:41.813

问题标签 [scrapinghub]

Reference