问题标签 [scrapyd]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 一个接一个地运行多个蜘蛛
我正在使用 Scrapy 框架让蜘蛛爬过一些网页。基本上,我想要的是抓取网页并将它们保存到数据库中。我每个网页有一个蜘蛛。但是我无法立即运行这些蜘蛛,以至于蜘蛛在另一只蜘蛛完成爬行之后开始爬行。怎样才能做到这一点?scrapyd 是解决方案吗?
python - windows scrapyd-deploy 无法识别
我已经像这样安装了scrapyd
我想使用scrapyd-deploy
当我输入scrapyd
我在cmd中遇到了这个异常:
'scrapyd' 不是内部或外部命令、可运行程序或批处理文件。
python - 在scrapy云上部署scrapy项目时出错
我在 Python 2.7 上使用了 scrapy 0.20。
- 我用简单的蜘蛛开发了我的scrapy项目。
- 导航到我的scrapy项目文件夹。
scrapy deploy scrapyd -d koooraspider
在cmd上输入。koooraspider
我的项目名称在哪里,scrapyd
是我的目标。
我收到以下错误:
scrapy.cfg
笔记
当我执行前面的步骤时,已经生成了project.egg-info
文件夹、build
文件夹和脚本。setup.py
任何帮助将不胜感激。
scrapy - Scrapyd找不到项目名称
当我尝试在 scrapyd 上运行现有的 scrapy 项目时出现错误。
我有一个工作的scrapy项目(url_finder)和一个用于测试目的的工作蜘蛛(test_ip_spider_1x),它只是下载whatismyip.com。
我成功安装了scrapyd(使用apt-get),现在我想在scrapyd 上运行蜘蛛。所以我执行:
这将返回:
这似乎表明该项目存在问题。但是,当我执行时:scrapy crawl test_ip_spider_1x
一切运行良好。当我在 Web 界面中检查 scrapyd 日志时,我得到的是:
有任何想法吗?
python - 在scrapy中的多个蜘蛛之间共享访问过的网址?
我正在使用scrapyd 在同一域中运行多个蜘蛛作为作业。我假设scrapy有一个访问过的url的哈希表,它在爬行时与其他蜘蛛共享和协调。当我创建同一个蜘蛛的实例时
它会爬取相同的 url,并且正在抓取重复的数据。以前有人处理过类似的问题吗?
scrapyd - 使用 SCRAPYD 调度蜘蛛
我正在尝试安排蜘蛛运行,我写道:
返回:
在 scrapyd.log 我看到:
任何人都可以帮助我吗?
问候
丹尼斯
python - Scrapy - 在蜘蛛内部加载一个带有相对路径的 yaml 文件
我正在尝试部署我的scrapy crawlers
,但问题是我有一个yaml file
我试图从内部加载的spider
,这在从 shell 加载蜘蛛时有效:scrapy crawl <spider-name>
。但是当spider部署在里面时scrapyd
,yaml文件的路径必须是absolute
.
有没有办法使用 a relative path
,yaml file
即使蜘蛛被部署了scrapyd
?
PS:部署
在:
spider
scrapyd
yaml
文件加载 :
python-2.7 - 在heroku上部署scrapy项目
我有一个scrapy spider项目,它会删除一些网站并获取我上面的数据。我的蜘蛛产生两个 JSON 文件,其中存储了所有被抓取的数据。
现在,我有一个烧瓶网络服务,它使用上述两个 JSON 文件来满足用户的请求。
我已经在 heroku 上部署了这个烧瓶网络服务并且工作正常。
我的问题是我每天在本地机器上运行scrapy spider,然后手动更新heroku 上的两个JSON 文件。
我想自动化这个scrapy项目应该每天运行的过程,并且产生的JSON文件应该自动更新。
我在这里找到的解决方案是,如果将 scrapy 蜘蛛和 Web 服务部署为单个项目,它将按我的意愿工作....但我不确定是否可以完成。
我搜索了有关部署scrapy项目的主题,发现了scrapyd甚至scrapy-heroku,但我不知道它们将如何提供帮助或我应该如何使用它们来满足我的特定要求。
python - 使用 Twisted Server 部署 Scrapy Spiders
我有+20 scrapy crawlers
我想deploy
从浏览器手动webpage
。为了实现这一点,我创建了一个twisted server
在 shell 进程中执行以下命令的简单程序:
这些命令在twisted
using中执行utils.getProcessOutput(scriptname)
。前面的两个命令script
作为参数在给定的内部。
尝试使用 执行扭曲服务器时twistd -y <server.py>
,会出现以下错误:[Failure instance: Traceback (failure with no frames): : got stderr: 'Packing version 1399464111\n'
]
.
这是twisted
服务器的代码:
是什么导致了这个错误(它不是很冗长)?
python - scrapyd pool_intervel 调度蜘蛛
我想让我的蜘蛛每三个小时启动一次。
我有一个位于c:/scrapyd
文件夹中的scrapy confinguration 文件。
我改变poll_interval
了100
蜘蛛工作,但它没有每 100 秒重复一次。
请问该怎么做?