问题标签 [scrapinghub]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

176 问题

0 投票

1 回答

1018 浏览

web-scraping - 来自js点击事件的Scrapy splash下载文件

我正在使用scrapy + splash插件，我有一个通过ajax触发下载事件的按钮，我需要获取下载的文件，但不知道如何。

我的 lua 脚本是这样的

我的蜘蛛的请求对象：

提前致谢

2017-09-22T21:30:41.690

0 投票

0 回答

2632 浏览

python - OSError：[Errno 1] 不允许操作：'/System/Library/Frameworks/Python.framework/Versions/2.7/man'

我正在尝试通过 pip 在 OSX 10.11.6 (El Capitan) 中安装 Scrapinghub 命令行工具 shub。安装脚本下载所需的模块，并在某些时候返回以下错误：

我使用了以下命令：

并收到以下回溯：

关于导致此问题的任何想法？提前致谢。

编辑：

通过安装 Homebrew 解决了这个问题。说明在此链接上：https ://docs.scrapy.org/en/latest/intro/install.html#mac-os-x

安装 Homebrew 后，我使用以下命令安装了 shub： pip install shub并收到以下内容：

现在 shub 已安装。

新问题： shub 已安装，但没有任何 shub 命令返回数据。使用该shub login命令时，我收到以下回溯：

我检查了是否有我需要的任何所需版本的包装，但一切都是最新的。

任何帮助是极大的赞赏。提前致谢。

python macos python-2.7 scrapy scrapinghub

2017-10-13T21:13:09.530

0 投票

1 回答

45 浏览

python - 文本替换 {} 在 scrapinghub 中不起作用

我创建了一个 {} 格式的 url 来动态更改 url。它在我的 PC 上运行良好。但是一旦我从scrapinghub上传并运行它，许多替换（其他工作正常）中的一个（状态）不起作用，它会在编码花括号的url中返回 %7B%7D& 。为什么会这样？引用状态变量时我错过了什么？

这是我的代码中的网址：

这是我在 scrapinghub 的日志中看到的网址：

python scrapy scrapinghub

2017-10-23T11:58:56.257

0 投票

1 回答

1895 浏览

ubuntu - 如何在服务器上运行 Scrapyd

最近，Scrapinghub 在他们的免费包中不再有定期作业，这是我用来运行我的 Scrapy 爬虫的。

因此，我决定改用Scrapyd。所以我继续安装了一个运行 Ubuntu 16.04 的虚拟服务器。（这是我第一次设置和运行服务器，所以请多多包涵）

按照scrapyd.readthedocs.io上的说明，我使用 pip 安装了 Scrapyd：

（那是在我发现 Ubuntu 使用 apt-get 的推荐方式实际上不再受支持之后，请参阅Github）。

然后我使用 SSH 登录到我的服务器，并通过简单地运行来运行 Scrapyd

据我所知，一切看起来都很好：

当我在http://82.165.102.18:6800访问我的 IP 时，我希望看到一个 Web 界面（在此处描述）。

相反，我只是收到错误消息“无法访问此站点 82.165.102.18 拒绝连接。”

当我尝试在本地运行 Scrapyd 时，一切正常，我在http://localhost:6800/获得了 Web 界面。

我曾尝试禁用防火墙 (UFW)，但这并没有帮助。

在这一点上，我迷路了。如果您有任何想法，请告诉我！

非常感谢！

ubuntu scrapy scrapyd scrapinghub

2017-10-30T17:37:23.717

0 投票

1 回答

408 浏览

python - 通过 API 调用更新 scrapinghub 托管的 Scrapy 项目的启动 url

我的 Scrapy spider 托管在 scrapinghub。它通过运行蜘蛛 API 调用进行管理。蜘蛛从调用到调用的唯一变化是开始 url 列表。该列表可能从 100 个网址到数千个不等。在这种情况下更新起始网址的最佳方法是什么？据我所知，SH API 中没有直接的选项。我正在考虑使用 url 列表更新 MySql 并在更新后发送简单的运行作业 API 调用。（启动 url 将从 MySql 表中生成）。对此类解决方案或其他选项有何评论？

我目前的设置如下。

python api scrapy scrapinghub

2017-11-01T07:56:43.023

0 投票

2 回答

217 浏览