问题标签 [scrapinghub]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

176 问题

0 投票

0 回答

137 浏览

python-2.7 - 是否可以通过使用 splash 来支持 Portia 的 JS？

是否可以通过 portia 在 slybot 中使用 splash download middlware middlware 来支持 js？

我正在尝试通过 docker 将 splash 与 portia 连接起来。如何将下载的初始中间件导入到 slybot 路径 "C:\portia-master\portia-master\slybot\slybot" 也让我知道如何在此路径中设置 setting.py 中的路径

python-2.7 scrapy splash-screen portia scrapinghub

2015-04-01T18:55:48.860

0 投票

1 回答

1408 浏览

web-crawler - 从 scrapinghub 中删除蜘蛛

我是 scrapinghub 的新用户。我已经在 google 上搜索并阅读了 scrapinghub 文档，但我找不到任何关于从项目中删除蜘蛛的信息。有没有可能，怎么做？我不想替换蜘蛛，我想从 scrapinghub 蜘蛛列表中删除/删除它。

web-crawler scrapy scrapy-spider scrapinghub

2015-05-04T10:01:27.610

0 投票

1 回答

429 浏览

mongodb - 在 scrapinghub 蜘蛛中添加设置

我正在尝试在 scrapinghub 平台的蜘蛛中启用 mongodb。为此，我必须通过 UI 中的“EXTENSIONS”设置启用扩展。但是，在运行蜘蛛时，我收到以下错误：

我的设置如下：

如果我删除此设置，我会收到以下错误：

设置如下：

令人担忧的是，这两个设置都在本地 scrapyd 中正常工作。

mongodb scrapy scrapinghub

2015-06-23T14:18:23.497

0 投票

1 回答

1313 浏览

mysql - ScrapingHub 和远程数据库

我正在用scrapy创建一个蜘蛛，我想使用MySQL数据库在我的蜘蛛中获取start_urls。现在我想知道是否可以将scrapy-cloud连接到远程数据库？

mysql scrapy scrapinghub

2015-07-20T12:25:24.243

0 投票

0 回答

76 浏览

python - Portia 爬网中的字段如何存储在列表中？

编辑：
我看到，在运行 Portia spider 时，提取的字段存储在 python 变量 list[] 中，并在将提取的详细信息记录到 scrapyd 时返回值。

我只想知道如何在蜘蛛运行中提取字段并将这些字段存储在 list[] 中？（即工作流程）

python scrapyd portia scrapinghub

2015-08-07T11:45:19.317

0 投票

1 回答

76 浏览

python - 如何为 Portia 中的不同字段注释相同的文本？

我想注释在单个 html 标记中的三个单独字段中具有三行的内容。
我尝试了部分注释方法。但是有些内容只有 2 行（部分注释在这种情况下不起作用）
如何在内容中进行注释？

python annotations portia scrapinghub

2015-09-29T13:51:39.657

0 投票

1 回答

234 浏览

python - 在 Scrapinghub 上部署 egg

我在抓取集线器上部署了一个项目，但我的蜘蛛无法工作，因为抓取集线器使用旧版本的扭曲库。该项目在我的本地机器上运行良好，无论如何我可以制作一个扭曲更新版本的鸡蛋并将其部署在抓取集线器上。

python scrapy web-crawler scrapinghub

2016-02-17T10:10:29.023

0 投票

2 回答

359 浏览

web-scraping - 从点击时出现的多个表中抓取网页

基本上我想打开这个页面，从最后一个下拉列表中选择“Rüzgar”，使用“Sorgula”按钮运行查询并提取存储在表中的所有坐标，一旦单击主表中第一列的第一个按钮，就会出现。我想对所有行都这样做。

不幸的是，我没有足够的编程经验来执行这项任务。但是，由于我对编程有点熟悉，我想如果有人会为我指出正确的来源来学习如何做到这一点（关于我试图从中提取数据的网页的要求），我可以构建用于此任务的小脚本，可能使用 scrapy 或其他工具。

PS：我尝试用 scrapinghub 的 Portia 来做这件事，但这也不起作用。

web-scraping scrapy portia scrapinghub

2016-03-23T18:58:00.683

0 投票

1 回答

70 浏览

scrapinghub - Scrapinghub部署错误：非退出状态1

当我尝试部署我的项目时收到此错误消息，我真的不明白为什么：错误日志

scrapinghub

2016-04-26T19:08:31.910

0 投票

1 回答

302 浏览

selenium - 如何在 Crawlera 中配置法国的 IP 地址？

我在我的 Scrapy-Selenium Crawler 中使用Crawlera 。

但我只需要使用来自法国的 IP 。

如何配置我的 crawlera 来做到这一点。

selenium web-scraping scrapy web-crawler scrapinghub

2016-07-13T12:49:27.303

1 2 3 4 5 6 7 8 9 10