问题标签 [scrapinghub]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
mongodb - scrapy hub - exceptions.ImportError:没有名为 pymodm 的模块
我可以在本地运行我的 scrapy 没有任何问题,但是,当我尝试从 scrapinghub 运行作业时,我收到以下错误(连接到 mongo atlas cloud):
我使用以下方式导入:
任何帮助深表感谢。
干杯
python - 如何在 scrapinghub 中使用 peewee
我想使用 peewee 将我的数据保存到远程机器。当我运行我的爬虫时,我发现了以下错误,
任何建议都非常受欢迎。
python - Scrapinghub:Dict_key 错误处理 | 检查密钥是否存在
我花了一段时间来理解 python-scrapinghubs 逻辑以及它与 Scrapinghubs API 交互的方式,但如果在我当前的故障排除中取得了进展......
利用 Scrapy,我列出了多个网络爬虫,其唯一功能是创建 m3u 播放列表。我从各种视频托管网站上抓取标题、视频源流 URL,如果特别是被抓取的网站需要它,那么它的类别也将部署到 scrapinghub。
在scrapinghub中部署时,我在自己的项目文件夹中创建的每个网站,项目中有各种其他scrapy项目(相关信息)。
使用 ScrapinghubClient 我首先遍历项目以获取所有作业密钥:
然后我使用 for 循环来获取每个项目 job.key
然后我通过将适当的 dict 键传递给文件来调用我的抓取内容(在本例中为打印)
这是问题开始的地方,当字典中不存在被调用的项目时,我需要能够处理错误我需要能够两个然后传递正在迭代的字典......从给定的代码片段来看,是字典不包含键值然后显然它只是停止......
那么我需要能够通过吗?或者使用 none 函数来检查密钥是否存在,如果然后......等等......我将如何处理这个?
selenium - Spider从本地机器和Scrapy Cloud返回不同的结果(phantomjs+selenium+crawlera)
你好!
向使用 scrapinghub、shub-image、selenuim+phantomjs、 crawlera 的人提问。 英文不好,不好意思
我需要抓取有很多 JS 代码的网站。所以我使用scrapy + selenium。此外,它应该在 Scrapy Cloud 上运行。我已经编写了使用 scrapy+selenuim+phantomjs 的蜘蛛并在我的本地机器上运行它。一切正常。然后我使用 shub-image 将项目部署到 Scrapy 云。部署没问题。但是 webdriver.page_source 的结果是不同的。在本地可以,在云端不行(带有铭文的 HTML - 403,请求 200 http)。然后我决定使用 crawlera acc。我已经添加了它:
适用于 Windows(本地)
对于 docker 实例
再次在当地一切都很好。云不好。我检查了 cralwera 的信息。没关系。请求从两者(本地和云)发送。
再次注意:相同的代理(crawlera)。在 Windows 上的响应:200 http,带有正确代码的 html
ScrapyCloud(docker 实例)的响应:200 http,带有铭文 403(禁止)的 html
我不明白出了什么问题。我认为这可能是 phantomjs 版本(Windows、Linux)之间的差异。
有任何想法吗?
python - ScrapinghubClient > 下载 CSV
我有一个关于通过 ScrapinghubClient 使用 ScrapingHub 的问题。有没有办法从所有已完成的作业中下载 csv 文件,然后直接从 python 中删除它们?谢谢!
python - scrapy 脚本在某些请求后停止
我有一个在scrapinghub 上运行的scrapy 脚本。刮板将一个参数作为存储 URL 的 csv 文件。该脚本运行没有错误,但问题是它没有从 url 中抓取所有项目。我不知道为什么会这样。日志也没有提供有关此的信息。任何人都可以对为什么会发生这种情况有任何想法吗?
selenium - 如何在 Scrapinghub 上安装 xvfb 以使用 Selenium?
我在我的蜘蛛(Scrapy)中使用Python-Selenium ,为了使用 Selenium,我应该在Scrapinghub上安装 xvfb 。
当我apt-get
用于安装 xvfb 时,出现以下错误消息:
有没有其他方法可以 在Scrapinghub上安装xvfb?
更新 1
我读了这个,我尝试使用docker,我被困在这个阶段
我读了这个
如果您在运行 shub-image init 时遇到这样的 ImportError:您应该通过运行以下命令确保安装了最新版本的 shub:
$ pip install shub --upgrade
但我总是有这个错误
python - 如何从 ScrapingHub 中提取文件?
我已经部署了一些 Scrapy 蜘蛛来抓取可以从 ScrapingHub 以 .csv 格式下载的数据。
其中一些蜘蛛有 FilePipeline,我用来将文件 (pdf) 下载到特定文件夹。有什么方法可以通过平台或 API 从 ScrapingHub 检索这些文件?
deployment - Scrapinghub无法连接?
我正在尝试使用他们提供的规则简单地将 Scrapy Spider 部署到 ScrapingHub。出于某种原因,它专门搜索 Python 3.6 目录,而它应该能够搜索任何 3.x Python 目录。我的蜘蛛是用 Python 3.5 编写的,这是一个问题。Scrapinghub 说识别“scrapy:1.4-py3”将适用于 3.x Python 集,但这显然不是真的。
另外,由于某种原因,它似乎在项目中找不到我的蜘蛛。这是否与 3.6 目录的问题有关。
最后,我已经安装了需求文件中所需的一切。
Scrapy.cfg 文件:
Scrapinghub.yml 代码: