问题标签 [scrapyd]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

350 问题

0 投票

4 回答

365 浏览

python - 单个 hxs.select 工作时清空刮板输出？

主文件

项目文件

我运行时的输出：scrapy crawl bloggerx -o items.json -t json

生成的输出文件是空的，并且在 scrapy shell 上尝试时单独的 hxs.select 语句工作正常。我在做什么傻事吗？

python web-crawler scrapy scrapyd

2013-03-07T11:12:29.737

0 投票

2 回答

147 浏览

python-2.7 - scrapy deploy -L returns nothing

I'm trying to deploy my scrapy project, but I'm stuck

I definately do have working project and several spiders:

and when I do scrapy list it shows list of all spiders.

I modified my scrapy.cfg file so it looks like that:

Then I do:

so everything seems to be fine, however in next step i dont see any projects available:

I tried typing directly:

But it didn't help.

Any suggestions what am I doing wrong?

python-2.7 scrapy scrapyd

2013-03-09T00:08:30.900

0 投票

0 回答

973 浏览

scrapy - Scrapy：在抓取 .aspx 页面时遇到问题

我正在尝试抓取一个 .aspx 页面，但它会将我重定向到一个不存在的页面。为了解决这个问题，我尝试设置 'dont_merge_cookies': True 和 'dont_redirect': True，并覆盖我的 start_requests，但现在，它给了我一个错误“'Response' object has no attribute 'body_as_unicode'”和我的响应类类型是'scrapy.http.response.Response'。

这是我的代码：

scrapy web-crawler scrapyd

2013-03-18T16:28:08.920

0 投票

1 回答

161 浏览

iis - 在 IIS 上运行 Scrapy

我有一个 IIS 服务器，上面有一个 ASP.NET MVC 应用程序。MVC 应用程序将围绕 Scraped 数据展开。有没有办法在 IIS 上运行Scrapy（Python 内置的工具）？类似于我们如何在 IIS 上运行 PHP 和 WordPress。

iis scrapy scrapyd

2013-03-24T18:39:52.590

0 投票

2 回答

1651 浏览

amazon-s3 - 使用 Feed Exporter 将项目从 Scrapyd 保存到 Amazon S3

将 Scrapy 与 amazon S3 一起使用非常简单，您可以设置：

FEED_URI = 's3://MYBUCKET/feeds/%(name)s/%(time)s.jl'
FEED_FORMAT = 'jsonlines'
AWS_ACCESS_KEY_ID = [访问密钥]
AWS_SECRET_ACCESS_KEY = [密钥]

一切正常。

但 Scrapyd 似乎覆盖了该设置并将项目保存在服务器上（在网站上有链接）

添加“items_dir =”设置似乎并没有改变任何东西。

什么样的设置使它起作用？

编辑：可能相关的额外信息 - 我们正在使用 Scrapy-Heroku。

amazon-s3 scrapy scrapyd

2013-04-11T18:03:03.603

0 投票

1 回答

3346 浏览

scrapy - 使用scrapyd有什么优势？

scrapy 文档说：

Scrapy 带有一个名为“Scrapyd”的内置服务，它允许您部署（也称为上传）您的项目并使用 JSON Web 服务控制它们的蜘蛛。

一致性使用scrapyd有一些优势吗？

scrapy scrapyd

2013-04-16T10:19:23.290

0 投票

3 回答

942 浏览

scrapy - 如何以json格式存储scrapyd项目

我正在尝试将scrapyd项目存储在JSON file. 实际上，默认情况下它将项目存储在 json 文件中，但如下所示： File_1：

如果我通过scrapy crawl spidername -o fileName -t json 运行我的蜘蛛

它将像这样存储项目：File_2：

如果我尝试将 File_1 的粘贴内容复制到jsonParser 中，我会收到错误提示，[ 但 File_2 工作正常。谁能告诉我如何使用 scrapyd 以正确的 JSON 格式存储项目

scrapy scrapyd

user2173955

2013-05-28T14:44:55.223

0 投票

1 回答

3302 浏览

python - 如何将scrapy服务器作为守护进程运行

我正在尝试将 scrapy 服务器作为守护进程运行。我已经尝试过这个链接，但是每当我运行这个命令时都会出错：

我可以从我的scrapy项目文件夹中运行scrapy服务器，但我想将它作为后台服务（守护进程）运行..我正在使用scrapy version : Scrapy 0.16.5

我该怎么做...请帮帮我..

python scrapy scrapyd

2013-06-07T07:44:05.293

0 投票

1 回答

300 浏览

python - 如何在 freeBSD 上安装 scrapyd

我正在尝试在 freeBSD 上安装 scrapyd，但出现此错误：

我已经使用这个命令安装了scrapy：

谁能告诉我如何在freeBSD上安装scrapyd。

python scrapy freebsd scrapyd

2013-06-10T08:39:55.133

0 投票

1 回答

589 浏览

python - Scrapy部署停止工作

我正在尝试使用scrapyd部署scrapy项目，但它给了我错误......

早些时候我能够正确部署项目，但现在不行......但是如果使用爬虫爬虫使用爬虫爬虫名称那么没有问题......有人可以帮助我......

python scrapy scrapyd

2013-06-17T10:15:05.820

1 2 3 4 5 6 7 8 9 10