1

我在 Heroku 上运行了一个基本的 Django Web 应用程序。我想添加一个蜘蛛来根据计划任务(例如通过APScheduler )抓取一些网络(例如使用Scrapy),以获取一些加载了收集的数据的 Django 数据库表。

有人知道实现这种集成的基础文档或示例吗?我觉得很难弄清楚。

4

1 回答 1

2

我根本没有使用过 Scrapy,但我实际上正在使用APScheduler,它使用起来非常简单。所以我的第一个猜测是使用BackgroundScheduler(在您的Django应用程序中)并向其添加一个作业,该作业将定期执行可调用的“蜘蛛”。

这里的问题是你如何在你的Django应用程序中嵌入一个Scrapy项目,这样你就可以访问它的一个“蜘蛛”并有效地将它用作你计划工作中的可调用对象。

我可能帮不上什么忙,但我只是想给你一些kickstart方向。我很确定,如果你仔细阅读Scrapy 的文档,你就会成功。

最好的。

于 2014-07-23T20:44:15.590 回答