问题标签 [scrapinghub]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
102 浏览

python - Scraping Hub Periodic Script / IOError No such file or directory

I am trying to run a periodic script and connect it with a json file within my project. I tried this (https://support.scrapinghub.com/support/solutions/articles/22000200416-deploying-non-code-files) but this is not working for me, structure imported from scraping hub looks very different. Script is working well until i need to call this file.

The error which I got is :

#xA;

with this in setup.py :

#xA;

Thanks a lot for your help.

0 投票
1 回答
259 浏览

scrapy - Scrapy 防止跨计划访问相同的 URL

我计划将 Scrapy 蜘蛛部署到 ScrapingHub 并使用计划功能每天运行蜘蛛。我知道,默认情况下,Scrapy 不会访问相同的 URL。但是,我想知道这种重复的 URL 避免是否在 ScrapingHub 上的预定启动中持续存在?以及我是否可以设置它以使 Scrapy 在其预定的开始时间不会访问相同的 URL。

0 投票
2 回答
2224 浏览

python - 如何在没有 Polipo 的情况下将 Crawlera 与 selenium(Python、Chrome、Windows)一起使用

所以基本上我正在尝试在使用 python 的 windows 上使用来自 scrapinghub 的 Crawlera 代理和 selenium chrome。

我检查了文档,他们建议像这样使用 Polipo:

1) 将以下行添加到 /etc/polipo/config

2)将此添加到硒驱动程序

现在我不想使用 Polipo 并直接使用代理。

有没有办法替换 polipo_proxy 变量并将其更改为 crawlera 变量?每次我尝试这样做时,它都不会考虑它并且在没有代理的情况下运行。

Crawlera 代理格式如下所示:[API KEY]:@[HOST]:[PORT]

我尝试使用以下行添加代理:

但问题是我需要以不同的方式指定 HTTP 和 HTTPS。

先感谢您!

0 投票
1 回答
747 浏览

python - Scrapy 和 Splash 正确设置但仍然出现连接错误

在我的settings.py下

我的蜘蛛源代码

码头集装箱

仍然出现此错误

我已经完成了所有这些我知道没问题的设置,但我想不出我哪里做错了。

请让我知道,因为我还是 python、scrapy 和 splash JS 渲染服务的新手

0 投票
0 回答
527 浏览

docker - Scrapinghub/Splash - Aquarium 不适用于 docker-compose

我们正在尝试使用 Aquarium 来设置 Scrapinghub/Splash。在安装时,当我使用“docker-compose up”启动 Splash 时,它会抛出异常

Traceback(最近一次调用):文件“/usr/local/bin/docker-compose”,第 11 行,在 sys.exit(main()) 文件“/usr/local/lib/python2.7/dist-packages /compose/cli/main.py”,第 71 行,在 main command() 文件中“/usr/local/lib/python2.7/dist-packages/compose/cli/main.py”,第 124 行,在 perform_command 项目中= project_from_options('.', options) 文件“/usr/local/lib/python2.7/dist-packages/compose/cli/command.py”,第 41 行,在 project_from_options 兼容性=options.get('--compatibility '),文件“/usr/local/lib/python2.7/dist-packages/compose/cli/command.py”,第 121 行,在 get_project 主机=主机,环境=环境文件“/usr/local/lib/ python2.7/dist-packages/compose/cli/command.py”,第 92 行,在 get_client environment=environment, tls_version=get_tls_version(environment) File "/usr/local/lib/python2.7/dist-packages/compose/cli/docker_client.py", line 127, in docker_client client = APIClient(**kwargs ) 文件“/usr/local/lib/python2.7/dist-packages/docker/api/client.py”,第 113 行,在init config_dict=self._general_configs TypeError: load_config() got an unexpected keyword argument 'config_dict'

目前,我正在使用 Docker 版本 18.06.0-ce,docker-compose 版本 1.22.0。

请帮我解决这个问题。

0 投票
0 回答
142 浏览

web-scraping - Scrapy 0 页面已抓取但没有明显问题?

我使用 Portia 创建了一个蜘蛛,然后将其下载为 scrapy 项目。蜘蛛运行良好,但它在日志中显示:Scrapy Crawled 0 pages (at 0 pages/min),也没有任何保存。但是,它还显示了所有以 200 响应爬取的页面,然后显示最后的数据字节。

蜘蛛代码

管道代码 我添加了 openSpider 和 closeSpider 函数,以便在爬行时将项目写入 json 行,我认为它可以工作,因为创建了 jl 文件。

设置中的设置代码 启用管道也可以使管道正常工作。

当我运行蜘蛛时,会创建以下日志

我不明白为什么它不收集物品。我首先说 0 个项目已爬网,然后显示 200 个页面成功响应。如果有人知道如何尝试使其爬网将有所帮助。谢谢

0 投票
0 回答
29 浏览

webkit - Scrapinghub/Splash 网站页面获取时间随着并行线程呈指数增长

在我的试验中,我用 50 个并行线程点击了启动实例。每个线程都会获取 URL 的页面源。我的启动实例默认槽值为 50。这里,网站获取时间随着并行线程的数量呈指数增长。我可以获得 50 个 URL 的完美 HTML 源代码。但是从第 1 个 URL 到第 50 个 URL,时间分别从 2 秒增加到 45 秒。请帮助我减少获取页面源的时间。

我的示例 java 代码是

}

我正在使用 ScheduledExecutorService 调度这个可运行对象的 50 个线程。

如果我一个一个地修改页面源,它​​将完美地工作。但我需要同时进行。

0 投票
2 回答
623 浏览

regex - 从本地scrapy到scrapy cloud(scraping hub) - 出乎意料的结果

与本地版本相比,我在 Scrapy 云上部署的爬虫产生了意想不到的结果。我的本地版本可以轻松提取产品项目的每个字段(来自在线零售商),但在 scrapy 云上,字段“配料”和字段“价格列表”始终显示为空。您将在附有图片的图片中看到我总是空的两个元素,而它完美地工作我使用 Python 3 并且堆栈配置了 scrapy:1.3-py3 配置。我首先认为这是正则表达式和 unicode 的问题,但似乎不是。所以我尝试了一切:你,你的 RE.ENCODE .... 并没有工作。

对于成分部分,我的代码如下:

似乎匹配从未发生在scrapy cloud上。

对于价格,我的代码如下:

那是同一个故事。还是空的。

我再说一遍:它在我的本地版本上运行良好。这两个数据是唯一引起问题的数据:我正在使用scrapy cloud提取一堆其他数据(也使用正则表达式),我对此非常满意?

有什么想法吗?

在此处输入图像描述

0 投票
1 回答
136 浏览

python-3.x - 运行 shub 命令的关键字异步错误

我准备好了我的蜘蛛,现在我想将它们部署到 scrapinghub。我已经成功安装了 shub running pip3 install shub。我使用python 3.7。

但是当我运行 shub 时,我得到一个语法错误。我可以看到这个问题应该在最新的 shub 版本 2.8 中修复。我做错了什么,还是错误仍未修复?你可以在这里看到错误https://github.com/scrapinghub/shub/pull/327 错误看起来像这样

0 投票
1 回答
89 浏览

scrapy - 在 scrappinghub 上抓取大量不同域时,scrapy 请求持续时间逐渐变长

我在scrappinghub上使用scrapy来废弃几千个网站。抓取单个网站时,请求持续时间非常短(< 100 毫秒)。

但我也有一个蜘蛛负责“验证”大约 10k 网址(我正在测试一堆不同的域,有或没有 www.),它所做的只是抓取主页,并且放弃状态不是 200或重定向。

我注意到,当连续多次运行这个蜘蛛时,我得到的结果不一致(项目和请求的数量不同)。

在查看请求日志时,我可以看到请求持续时间逐渐变长,然后恢复到较低的数字,然后变得更高,直到在某些 url 上触发用户超时。

我使用的是CONCURENT_REQUESTS通常 > 100(我尝试过,100、200、500、1000)

这是持续时间日志,这里没有超时,因为只有 100 个 url,但我需要在 10k url 上运行此验证,这种持续时间不稳定令人担忧:

我的蜘蛛:

解析方法:

errback_httpbin:

设置.py: