问题标签 [scrapinghub]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python-2.7 - 是否可以通过使用 splash 来支持 Portia 的 JS?
是否可以通过 portia 在 slybot 中使用 splash download middlware middlware 来支持 js?
我正在尝试通过 docker 将 splash 与 portia 连接起来。如何将下载的初始中间件导入到 slybot 路径 "C:\portia-master\portia-master\slybot\slybot" 也让我知道如何在此路径中设置 setting.py 中的路径
web-crawler - 从 scrapinghub 中删除蜘蛛
我是 scrapinghub 的新用户。我已经在 google 上搜索并阅读了 scrapinghub 文档,但我找不到任何关于从项目中删除蜘蛛的信息。有没有可能,怎么做?我不想替换蜘蛛,我想从 scrapinghub 蜘蛛列表中删除/删除它。
mongodb - 在 scrapinghub 蜘蛛中添加设置
我正在尝试在 scrapinghub 平台的蜘蛛中启用 mongodb。为此,我必须通过 UI 中的“EXTENSIONS”设置启用扩展。但是,在运行蜘蛛时,我收到以下错误:
我的设置如下:
如果我删除此设置,我会收到以下错误:
设置如下:
令人担忧的是,这两个设置都在本地 scrapyd 中正常工作。
mysql - ScrapingHub 和远程数据库
我正在用scrapy创建一个蜘蛛,我想使用MySQL数据库在我的蜘蛛中获取start_urls。现在我想知道是否可以将scrapy-cloud连接到远程数据库?
python - Portia 爬网中的字段如何存储在列表中?
编辑:
我看到,在运行 Portia spider 时,提取的字段存储在 python 变量 list[] 中,并在将提取的详细信息记录到 scrapyd 时返回值。
我只想知道如何在蜘蛛运行中提取字段并将这些字段存储在 list[] 中?(即工作流程)
python - 如何为 Portia 中的不同字段注释相同的文本?
我想注释在单个 html 标记中的三个单独字段中具有三行的内容。
我尝试了部分注释方法。但是有些内容只有 2 行(部分注释在这种情况下不起作用)
如何在内容中进行注释?
python - 在 Scrapinghub 上部署 egg
我在抓取集线器上部署了一个项目,但我的蜘蛛无法工作,因为抓取集线器使用旧版本的扭曲库。该项目在我的本地机器上运行良好,无论如何我可以制作一个扭曲更新版本的鸡蛋并将其部署在抓取集线器上。
web-scraping - 从点击时出现的多个表中抓取网页
基本上我想打开这个页面,从最后一个下拉列表中选择“Rüzgar”,使用“Sorgula”按钮运行查询并提取存储在表中的所有坐标,一旦单击主表中第一列的第一个按钮,就会出现。我想对所有行都这样做。
不幸的是,我没有足够的编程经验来执行这项任务。但是,由于我对编程有点熟悉,我想如果有人会为我指出正确的来源来学习如何做到这一点(关于我试图从中提取数据的网页的要求),我可以构建用于此任务的小脚本,可能使用 scrapy 或其他工具。
PS:我尝试用 scrapinghub 的 Portia 来做这件事,但这也不起作用。
scrapinghub - Scrapinghub部署错误:非退出状态1
当我尝试部署我的项目时收到此错误消息,我真的不明白为什么:错误日志