问题标签 [scrapinghub]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
web-scraping - 来自js点击事件的Scrapy splash下载文件
我正在使用scrapy + splash插件,我有一个通过ajax触发下载事件的按钮,我需要获取下载的文件,但不知道如何。
我的 lua 脚本是这样的
我的蜘蛛的请求对象:
提前致谢
python - OSError:[Errno 1] 不允许操作:'/System/Library/Frameworks/Python.framework/Versions/2.7/man'
我正在尝试通过 pip 在 OSX 10.11.6 (El Capitan) 中安装 Scrapinghub 命令行工具 shub。安装脚本下载所需的模块,并在某些时候返回以下错误:
我使用了以下命令:
并收到以下回溯:
关于导致此问题的任何想法?提前致谢。
编辑:
通过安装 Homebrew 解决了这个问题。说明在此链接上:https ://docs.scrapy.org/en/latest/intro/install.html#mac-os-x
安装 Homebrew 后,我使用以下命令安装了 shub:
pip install shub
并收到以下内容:
现在 shub 已安装。
新问题:
shub 已安装,但没有任何 shub 命令返回数据。使用该shub login
命令时,我收到以下回溯:
我检查了是否有我需要的任何所需版本的包装,但一切都是最新的。
任何帮助是极大的赞赏。提前致谢。
python - 文本替换 {} 在 scrapinghub 中不起作用
我创建了一个 {} 格式的 url 来动态更改 url。它在我的 PC 上运行良好。但是一旦我从scrapinghub上传并运行它,许多替换(其他工作正常)中的一个(状态)不起作用,它会在编码花括号的url中返回 %7B%7D& 。为什么会这样?引用状态变量时我错过了什么?
这是我的代码中的网址:
这是我在 scrapinghub 的日志中看到的网址:
ubuntu - 如何在服务器上运行 Scrapyd
最近,Scrapinghub 在他们的免费包中不再有定期作业,这是我用来运行我的 Scrapy 爬虫的。
因此,我决定改用Scrapyd。所以我继续安装了一个运行 Ubuntu 16.04 的虚拟服务器。(这是我第一次设置和运行服务器,所以请多多包涵)
按照scrapyd.readthedocs.io上的说明,我使用 pip 安装了 Scrapyd:
(那是在我发现 Ubuntu 使用 apt-get 的推荐方式实际上不再受支持之后,请参阅Github)。
然后我使用 SSH 登录到我的服务器,并通过简单地运行来运行 Scrapyd
据我所知,一切看起来都很好:
当我在http://82.165.102.18:6800访问我的 IP 时,我希望看到一个 Web 界面(在此处描述) 。
相反,我只是收到错误消息“无法访问此站点 82.165.102.18 拒绝连接。”
当我尝试在本地运行 Scrapyd 时,一切正常,我在http://localhost:6800/获得了 Web 界面。
我曾尝试禁用防火墙 (UFW),但这并没有帮助。
在这一点上,我迷路了。如果您有任何想法,请告诉我!
非常感谢!
python - 通过 API 调用更新 scrapinghub 托管的 Scrapy 项目的启动 url
我的 Scrapy spider 托管在 scrapinghub。它通过运行蜘蛛 API 调用进行管理。蜘蛛从调用到调用的唯一变化是开始 url 列表。该列表可能从 100 个网址到数千个不等。在这种情况下更新起始网址的最佳方法是什么?据我所知,SH API 中没有直接的选项。我正在考虑使用 url 列表更新 MySql 并在更新后发送简单的运行作业 API 调用。(启动 url 将从 MySql 表中生成)。对此类解决方案或其他选项有何评论?
我目前的设置如下。
python-2.7 - Scrapinghub shub 部署错误 - 错误:部署失败(400):项目:non_field_errors
当我尝试将其 shub 部署到云中并出现以下错误时。
我目前的设置如下。
python-2.7 - 信号处理程序上捕获的错误:TypeError:to_bytes 必须接收一个 unicode got 实例
当我在scrapy cloud中运行我的代码时出现这个奇怪的错误。不知道如何调试它。蜘蛛代码中没有对 line 的引用。我认为它是关于保存项目和一般性的,因为没有指示 url。此外,蜘蛛运行正常并在此错误后提供结果。任何帮助表示赞赏。
这是我产生的项目:
python - 在 shub deploy 项目上设置变量
我正在尝试设置scrapy设置以在本地和scrapinghub上使用测试和生产环境。我想知道是否有任何方法可以在 shub deploy 上设置这个变量(例如如下):
然后在settings.py:
或者......也许有更清洁的方法?
感谢您的阅读!
PS:我想根据蜘蛛/项目所在的环境自动化设置,而不是手动更改变量。