我有一个scrapy spider项目,它会删除一些网站并获取我上面的数据。我的蜘蛛产生两个 JSON 文件,其中存储了所有被抓取的数据。
现在,我有一个烧瓶网络服务,它使用上述两个 JSON 文件来满足用户的请求。
我已经在 heroku 上部署了这个烧瓶网络服务并且工作正常。
我的问题是我每天在本地机器上运行scrapy spider,然后手动更新heroku 上的两个JSON 文件。
我想自动化这个scrapy项目应该每天运行的过程,并且产生的JSON文件应该自动更新。
我在这里找到的解决方案是,如果将 scrapy 蜘蛛和 Web 服务部署为单个项目,它将按我的意愿工作....但我不确定是否可以完成。
我搜索了有关部署scrapy项目的主题,发现了scrapyd甚至scrapy-heroku,但我不知道它们将如何提供帮助或我应该如何使用它们来满足我的特定要求。