我正在尝试做三件事。
一:至少每天抓取和归档一组预定义的网站。
二:在这个数据上运行一夜之间的批处理python脚本(文本分类)。
三:向用户公开一个基于 Django 的前端,让他们搜索爬取的数据。
我一直在玩 Apache Nutch/Lucene,但是当我可以使用另一个爬虫引擎时,让它与 Django 一起玩似乎太难了。
问题950790建议我可以在 Django 本身中编写爬虫,但我不知道该怎么做。
基本上 - 在 Django 中编写爬虫的任何指针或我可以适应的现有 python 爬虫?或者我应该在第二步中加入“变成 Django 友好的东西”并编写一些胶水代码?或者,最后,我应该完全放弃 Django 吗?不过,我真的需要一些可以从前端快速搜索的东西。