问题标签 [scrapinghub]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1018 浏览

web-scraping - 来自js点击事件的Scrapy splash下载文件

我正在使用scrapy + splash插件,我有一个通过ajax触发下载事件的按钮,我需要获取下载的文件,但不知道如何。

我的 lua 脚本是这样的

我的蜘蛛的请求对象:

提前致谢

0 投票
0 回答
2632 浏览

python - OSError:[Errno 1] 不允许操作:'/System/Library/Frameworks/Python.framework/Versions/2.7/man'

我正在尝试通过 pip 在 OSX 10.11.6 (El Capitan) 中安装 Scrapinghub 命令行工具 shub。安装脚本下载所需的模块,并在某些时候返回以下错误:

我使用了以下命令:

并收到以下回溯:

关于导致此问题的任何想法?提前致谢。

编辑:

通过安装 Homebrew 解决了这个问题。说明在此链接上:https ://docs.scrapy.org/en/latest/intro/install.html#mac-os-x

安装 Homebrew 后,我使用以下命令安装了 shub: pip install shub并收到以下内容:

现在 shub 已安装。

新问题: shub 已安装,但没有任何 shub 命令返回数据。使用该shub login命令时,我收到以下回溯:

我检查了是否有我需要的任何所需版本的包装,但一切都是最新的。

任何帮助是极大的赞赏。提前致谢。

0 投票
1 回答
45 浏览

python - 文本替换 {} 在 scrapinghub 中不起作用

我创建了一个 {} 格式的 url 来动态更改 url。它在我的 PC 上运行良好。但是一旦我从scrapinghub上传并运行它,许多替换(其他工作正常)中的一个(状态)不起作用,它会在编码花括号的url中返回 %7B%7D& 。为什么会这样?引用状态变量时我错过了什么?

这是我的代码中的网址:

这是我在 scrapinghub 的日志中看到的网址:

0 投票
1 回答
1895 浏览

ubuntu - 如何在服务器上运行 Scrapyd

最近,Scrapinghub 在他们的免费包中不再有定期作业,这是我用来运行我的 Scrapy 爬虫的。

因此,我决定改用Scrapyd。所以我继续安装了一个运行 Ubuntu 16.04 的虚拟服务器。(这是我第一次设置和运行服务器,所以请多多包涵)

按照scrapyd.readthedocs.io上的说明,我使用 pip 安装了 Scrapyd:

(那是在我发现 Ubuntu 使用 apt-get 的推荐方式实际上不再受支持之后,请参阅Github)。

然后我使用 SSH 登录到我的服务器,并通过简单地运行来运行 Scrapyd

据我所知,一切看起来都很好:

当我在http://82.165.102.18:6800访问我的 IP 时,我希望看到一个 Web 界面(在此处描述) 。

相反,我只是收到错误消息“无法访问此站点 82.165.102.18 拒绝连接。”

当我尝试在本地运行 Scrapyd 时,一切正常,我在http://localhost:6800/获得了 Web 界面。

我曾尝试禁用防火墙 (UFW),但这并没有帮助。

在这一点上,我迷路了。如果您有任何想法,请告诉我!

非常感谢!

0 投票
1 回答
408 浏览

python - 通过 API 调用更新 scrapinghub 托管的 Scrapy 项目的启动 url

我的 Scrapy spider 托管在 scrapinghub。它通过运行蜘蛛 API 调用进行管理。蜘蛛从调用到调用的唯一变化是开始 url 列表。该列表可能从 100 个网址到数千个不等。在这种情况下更新起始网址的最佳方法是什么?据我所知,SH API 中没有直接的选项。我正在考虑使用 url 列表更新 MySql 并在更新后发送简单的运行作业 API 调用。(启动 url 将从 MySql 表中生成)。对此类解决方案或其他选项有何评论?

我目前的设置如下。

0 投票
2 回答
217 浏览

python-2.7 - 无法安装 MySQLdb-python==1.2.5 Scrapinghub (Scrapy) Python 2.7

我阅读了一些关于连接 Mysql 和 scrapinghub 部署脚本的线程。他们建议更改 *.yml 文件并添加需求 txt。该解决方案几天前有效。现在它没有。

在此处输入图像描述

这是来自 Shub Deploy 的错误。

是SH改变了smth还是我错了?

0 投票
1 回答
172 浏览

scrapinghub - 尝试在 Scrapy Cloud 上运行项目时出现依赖错误

我创建一个项目scrapy并使用pymongo将我的数据保存到mongodb.

我检查了我的 pymongo 版本是 3.5.1

当我将我的项目部署到 scrapinghub 并运行它时。

它在scrapinghub上显示错误exceptions.ImportError: No module named pymongo

我创建了 requirements.txt 和 scrapinghub.yml。 在此处输入图像描述

在此处输入图像描述

为什么它显示错误exceptions.ImportError: No module named pymongo在此处输入图像描述 任何帮助,将不胜感激。提前致谢。

在此处输入图像描述

0 投票
1 回答
705 浏览

python-2.7 - Scrapinghub shub 部署错误 - 错误:部署失败(400):项目:non_field_errors

当我尝试将其 shub 部署到云中并出现以下错误时。

我目前的设置如下。

0 投票
0 回答
457 浏览

python-2.7 - 信号处理程序上捕获的错误:TypeError:to_bytes 必须接收一个 unicode got 实例

当我在scrapy cloud中运行我的代码时出现这个奇怪的错误。不知道如何调试它。蜘蛛代码中没有对 line 的引用。我认为它是关于保存项目和一般性的,因为没有指示 url。此外,蜘蛛运行正常并在此错误后提供结果。任何帮助表示赞赏。

这是我产生的项目:

0 投票
2 回答
846 浏览

python - 在 shub deploy 项目上设置变量

我正在尝试设置scrapy设置以在本地和scrapinghub上使用测试和生产环境。我想知道是否有任何方法可以在 shub deploy 上设置这个变量(例如如下):

在此处输入图像描述

然后在settings.py:

或者......也许有更清洁的方法?

感谢您的阅读!

PS:我想根据蜘蛛/项目所在的环境自动化设置,而不是手动更改变量。

编辑:找到更好的解决方案。检查答案