问题标签 [scrapyd]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
365 浏览

python - 单个 hxs.select 工作时清空刮板输出?

主文件

项目文件

我运行时的输出:scrapy crawl bloggerx -o items.json -t json

生成的输出文件是空的,并且在 scrapy shell 上尝试时单独的 hxs.select 语句工作正常。我在做什么傻事吗?

0 投票
2 回答
147 浏览

python-2.7 - scrapy deploy -L returns nothing

I'm trying to deploy my scrapy project, but I'm stuck

I definately do have working project and several spiders:

and when I do scrapy list it shows list of all spiders.

I modified my scrapy.cfg file so it looks like that:

Then I do:

so everything seems to be fine, however in next step i dont see any projects available:

I tried typing directly:

But it didn't help.

Any suggestions what am I doing wrong?

0 投票
0 回答
973 浏览

scrapy - Scrapy:在抓取 .aspx 页面时遇到问题

我正在尝试抓取一个 .aspx 页面,但它会将我重定向到一个不存在的页面。为了解决这个问题,我尝试设置 'dont_merge_cookies': True 和 'dont_redirect': True,并覆盖我的 start_requests,但现在,它给了我一个错误“'Response' object has no attribute 'body_as_unicode'”和我的响应类类型是'scrapy.http.response.Response'。

这是我的代码:

0 投票
1 回答
161 浏览

iis - 在 IIS 上运行 Scrapy

我有一个 IIS 服务器,上面有一个 ASP.NET MVC 应用程序。MVC 应用程序将围绕 Scraped 数据展开。有没有办法在 IIS 上运行Scrapy(Python 内置的工具)?类似于我们如何在 IIS 上运行 PHP 和 WordPress。

0 投票
2 回答
1651 浏览

amazon-s3 - 使用 Feed Exporter 将项目从 Scrapyd 保存到 Amazon S3

将 Scrapy 与 amazon S3 一起使用非常简单,您可以设置:

  • FEED_URI = 's3://MYBUCKET/feeds/%(name)s/%(time)s.jl'
  • FEED_FORMAT = 'jsonlines'
  • AWS_ACCESS_KEY_ID = [访问密钥]
  • AWS_SECRET_ACCESS_KEY = [密钥]

一切正常。

但 Scrapyd 似乎覆盖了该设置并将项目保存在服务器上(在网站上有链接)

添加“items_dir =”设置似乎并没有改变任何东西。

什么样的设置使它起作用?

编辑:可能相关的额外信息 - 我们正在使用 Scrapy-Heroku。

0 投票
1 回答
3346 浏览

scrapy - 使用scrapyd有什么优势?

scrapy 文档说:

Scrapy 带有一个名为“Scrapyd”的内置服务,它允许您部署(也称为上传)您的项目并使用 JSON Web 服务控制它们的蜘蛛。

一致性使用scrapyd有一些优势吗?

0 投票
3 回答
942 浏览

scrapy - 如何以json格式存储scrapyd项目

我正在尝试将scrapyd项目存储在JSON file. 实际上,默认情况下它将项目存储在 json 文件中,但如下所示: File_1:

如果我通过scrapy crawl spidername -o fileName -t json 运行我的蜘蛛

它将像这样存储项目:File_2:

如果我尝试将 File_1 的粘贴内容复制到jsonParser 中,我会收到错误提示,[ 但 File_2 工作正常。谁能告诉我如何使用 scrapyd 以正确的 JSON 格式存储项目

0 投票
1 回答
3302 浏览

python - 如何将scrapy服务器作为守护进程运行

我正在尝试将 scrapy 服务器作为守护进程运行。我已经尝试过这个链接 ,但是每当我运行这个命令时都会出错:

我可以从我的scrapy项目文件夹中运行scrapy服务器,但我想将它作为后台服务(守护进程)运行..我正在使用scrapy version : Scrapy 0.16.5

我该怎么做...请帮帮我..

0 投票
1 回答
300 浏览

python - 如何在 freeBSD 上安装 scrapyd

我正在尝试在 freeBSD 上安装 scrapyd,但出现此错误:

我已经使用这个命令安装了scrapy:

谁能告诉我如何在freeBSD上安装scrapyd。

0 投票
1 回答
589 浏览

python - Scrapy部署停止工作

我正在尝试使用scrapyd部署scrapy项目,但它给了我错误......

早些时候我能够正确部署项目,但现在不行......但是如果使用爬虫爬虫使用爬虫爬虫名称那么没有问题......有人可以帮助我......