python - Django Heroku APScheduler Scrapy

Question

我在 Heroku 上运行了一个基本的 Django Web 应用程序。我想添加一个蜘蛛来根据计划任务（例如通过APScheduler ）抓取一些网络（例如使用 Scrapy），以获取一些加载了收集的数据的 Django 数据库表。

有人知道实现这种集成的基础文档或示例吗？我觉得很难弄清楚。

score 2 · Accepted Answer

我根本没有使用过 Scrapy，但我实际上正在使用APScheduler，它使用起来非常简单。所以我的第一个猜测是使用BackgroundScheduler（在您的Django应用程序中）并向其添加一个作业，该作业将定期执行可调用的“蜘蛛”。

这里的问题是你如何在你的Django应用程序中嵌入一个Scrapy项目，这样你就可以访问它的一个“蜘蛛”并有效地将它用作你计划工作中的可调用对象。

我可能帮不上什么忙，但我只是想给你一些kickstart方向。我很确定，如果你仔细阅读Scrapy 的文档，你就会成功。

最好的。

1 回答 1