“scrapinghub”的相关标签问题

0 投票

0 回答

102 浏览

python - Scraping Hub Periodic Script / IOError No such file or directory

I am trying to run a periodic script and connect it with a json file within my project. I tried this (https://support.scrapinghub.com/support/solutions/articles/22000200416-deploying-non-code-files) but this is not working for me, structure imported from scraping hub looks very different. Script is working well until i need to call this file.

The error which I got is :

#xA;

with this in setup.py :

#xA;

Thanks a lot for your help.

2018-05-20T17:47:40.510

0 投票

1 回答

259 浏览

scrapy - Scrapy 防止跨计划访问相同的 URL

我计划将 Scrapy 蜘蛛部署到 ScrapingHub 并使用计划功能每天运行蜘蛛。我知道，默认情况下，Scrapy 不会访问相同的 URL。但是，我想知道这种重复的 URL 避免是否在 ScrapingHub 上的预定启动中持续存在？以及我是否可以设置它以使 Scrapy 在其预定的开始时间不会访问相同的 URL。

scrapy scrapinghub

2018-05-24T16:50:04.270

0 投票

2 回答

2224 浏览

python - 如何在没有 Polipo 的情况下将 Crawlera 与 selenium（Python、Chrome、Windows）一起使用

所以基本上我正在尝试在使用 python 的 windows 上使用来自 scrapinghub 的 Crawlera 代理和 selenium chrome。

我检查了文档，他们建议像这样使用 Polipo：

1) 将以下行添加到 /etc/polipo/config

2）将此添加到硒驱动程序

现在我不想使用 Polipo 并直接使用代理。

有没有办法替换 polipo_proxy 变量并将其更改为 crawlera 变量？每次我尝试这样做时，它都不会考虑它并且在没有代理的情况下运行。

Crawlera 代理格式如下所示：[API KEY]:@[HOST]:[PORT]

我尝试使用以下行添加代理：

但问题是我需要以不同的方式指定 HTTP 和 HTTPS。

先感谢您！

python selenium proxy selenium-chromedriver scrapinghub

2018-06-06T15:05:58.707

0 投票

1 回答

747 浏览

python - Scrapy 和 Splash 正确设置但仍然出现连接错误

在我的settings.py下

我的蜘蛛源代码

码头集装箱

仍然出现此错误

我已经完成了所有这些我知道没问题的设置，但我想不出我哪里做错了。

请让我知道，因为我还是 python、scrapy 和 splash JS 渲染服务的新手

python scrapy splash-screen scrapy-splash scrapinghub

2018-07-10T07:31:01.027

0 投票

0 回答

527 浏览

docker - Scrapinghub/Splash - Aquarium 不适用于 docker-compose

我们正在尝试使用 Aquarium 来设置 Scrapinghub/Splash。在安装时，当我使用“docker-compose up”启动 Splash 时，它会抛出异常

Traceback（最近一次调用）：文件“/usr/local/bin/docker-compose”，第 11 行，在 sys.exit(main()) 文件“/usr/local/lib/python2.7/dist-packages /compose/cli/main.py”，第 71 行，在 main command() 文件中“/usr/local/lib/python2.7/dist-packages/compose/cli/main.py”，第 124 行，在 perform_command 项目中= project_from_options('.', options) 文件“/usr/local/lib/python2.7/dist-packages/compose/cli/command.py”，第 41 行，在 project_from_options 兼容性=options.get('--compatibility ')，文件“/usr/local/lib/python2.7/dist-packages/compose/cli/command.py”，第 121 行，在 get_project 主机=主机，环境=环境文件“/usr/local/lib/ python2.7/dist-packages/compose/cli/command.py”，第 92 行，在 get_client environment=environment, tls_version=get_tls_version(environment) File "/usr/local/lib/python2.7/dist-packages/compose/cli/docker_client.py", line 127, in docker_client client = APIClient(**kwargs ) 文件“/usr/local/lib/python2.7/dist-packages/docker/api/client.py”，第 113 行，在init config_dict=self._general_configs TypeError: load_config() got an unexpected keyword argument 'config_dict'

目前，我正在使用 Docker 版本 18.06.0-ce，docker-compose 版本 1.22.0。

请帮我解决这个问题。

docker docker-compose scrapinghub splash-js-render

2018-07-23T13:34:24.457

0 投票

0 回答

142 浏览

web-scraping - Scrapy 0 页面已抓取但没有明显问题？

我使用 Portia 创建了一个蜘蛛，然后将其下载为 scrapy 项目。蜘蛛运行良好，但它在日志中显示：Scrapy Crawled 0 pages (at 0 pages/min)，也没有任何保存。但是，它还显示了所有以 200 响应爬取的页面，然后显示最后的数据字节。

蜘蛛代码

管道代码 我添加了 openSpider 和 closeSpider 函数，以便在爬行时将项目写入 json 行，我认为它可以工作，因为创建了 jl 文件。

设置中的设置代码 启用管道也可以使管道正常工作。

当我运行蜘蛛时，会创建以下日志：

我不明白为什么它不收集物品。我首先说 0 个项目已爬网，然后显示 200 个页面成功响应。如果有人知道如何尝试使其爬网将有所帮助。谢谢

web-scraping scrapy scrapy-spider scrapinghub portia

2018-07-24T04:32:35.080

0 投票

0 回答

29 浏览

webkit - Scrapinghub/Splash 网站页面获取时间随着并行线程呈指数增长

在我的试验中，我用 50 个并行线程点击了启动实例。每个线程都会获取 URL 的页面源。我的启动实例默认槽值为 50。这里，网站获取时间随着并行线程的数量呈指数增长。我可以获得 50 个 URL 的完美 HTML 源代码。但是从第 1 个 URL 到第 50 个 URL，时间分别从 2 秒增加到 45 秒。请帮助我减少获取页面源的时间。

我的示例 java 代码是

}

我正在使用 ScheduledExecutorService 调度这个可运行对象的 50 个线程。

如果我一个一个地修改页面源，它将完美地工作。但我需要同时进行。

webkit qtwebkit scrapy-splash scrapinghub splash-js-render

2018-07-24T08:02:16.857

0 投票

2 回答

623 浏览

regex - 从本地scrapy到scrapy cloud（scraping hub） - 出乎意料的结果

与本地版本相比，我在 Scrapy 云上部署的爬虫产生了意想不到的结果。我的本地版本可以轻松提取产品项目的每个字段（来自在线零售商），但在 scrapy 云上，字段“配料”和字段“价格列表”始终显示为空。您将在附有图片的图片中看到我总是空的两个元素，而它完美地工作我使用 Python 3 并且堆栈配置了 scrapy:1.3-py3 配置。我首先认为这是正则表达式和 unicode 的问题，但似乎不是。所以我尝试了一切：你，你的 RE.ENCODE .... 并没有工作。

对于成分部分，我的代码如下：

似乎匹配从未发生在scrapy cloud上。

对于价格，我的代码如下：

那是同一个故事。还是空的。

我再说一遍：它在我的本地版本上运行良好。这两个数据是唯一引起问题的数据：我正在使用scrapy cloud提取一堆其他数据（也使用正则表达式），我对此非常满意？

有什么想法吗？

regex python-3.x scrapy scrapinghub

2018-07-29T08:23:06.877

0 投票

1 回答

136 浏览

python-3.x - 运行 shub 命令的关键字异步错误

我准备好了我的蜘蛛，现在我想将它们部署到 scrapinghub。我已经成功安装了 shub running pip3 install shub。我使用python 3.7。

但是当我运行 shub 时，我得到一个语法错误。我可以看到这个问题应该在最新的 shub 版本 2.8 中修复。我做错了什么，还是错误仍未修复？你可以在这里看到错误https://github.com/scrapinghub/shub/pull/327 错误看起来像这样

python-3.x scrapinghub

2018-08-14T18:21:04.727

0 投票

1 回答

89 浏览

scrapy - 在 scrappinghub 上抓取大量不同域时，scrapy 请求持续时间逐渐变长

我在scrappinghub上使用scrapy来废弃几千个网站。抓取单个网站时，请求持续时间非常短（< 100 毫秒）。

但我也有一个蜘蛛负责“验证”大约 10k 网址（我正在测试一堆不同的域，有或没有 www.），它所做的只是抓取主页，并且放弃状态不是 200或重定向。

我注意到，当连续多次运行这个蜘蛛时，我得到的结果不一致（项目和请求的数量不同）。

在查看请求日志时，我可以看到请求持续时间逐渐变长，然后恢复到较低的数字，然后变得更高，直到在某些 url 上触发用户超时。

我使用的是CONCURENT_REQUESTS通常 > 100（我尝试过，100、200、500、1000）

这是持续时间日志，这里没有超时，因为只有 100 个 url，但我需要在 10k url 上运行此验证，这种持续时间不稳定令人担忧：

我的蜘蛛：

解析方法：

errback_httpbin：

设置.py：

scrapy scrapinghub

2018-08-29T23:47:59.223

问题标签 [scrapinghub]

Reference