我是网络爬虫的新手。我将构建一个搜索引擎,让爬虫保存 Rapidshare 链接,包括 Rapidshare 链接找到的 URL……
换句话说,我要建立一个类似的网站filestube.com
经过一番搜索,我发现Scrapy可以与 Django 一起使用。我试图找到关于 nutch 与 Django 的集成,但什么也没找到
我希望你能给我建立这种网站的建议……尤其是爬虫
我是网络爬虫的新手。我将构建一个搜索引擎,让爬虫保存 Rapidshare 链接,包括 Rapidshare 链接找到的 URL……
换句话说,我要建立一个类似的网站filestube.com
经过一番搜索,我发现Scrapy可以与 Django 一起使用。我试图找到关于 nutch 与 Django 的集成,但什么也没找到
我希望你能给我建立这种网站的建议……尤其是爬虫
最著名的可插拔应用程序是Django-Haystack,它允许您连接到多个搜索后端:
haystack 允许您使用类似于 Django 自己的 Queryset 语法的 API 来直接使用这些搜索引擎(它们都恰好有自己的 API 和方言)。
如果您只是在抓取工具之后,无论您将使用什么工具:BeautifulSoup或 Scrappy,您都将独自编写 Python 代码来解析您想要解析的内容,然后填充您的 django 模型。
这甚至可以是单独的 python 脚本,在 commands.py 模块中可用。
如果您有很多文件要搜索,您可能需要一个索引,该索引会经常重建并允许快速搜索而无需使用 django ORM。
使用 Solr 索引(例如)使您能够即时创建其他字段,例如基于真实模型字段的虚拟字段(例如:拆分作者的名字和姓氏,添加大写的文件标题字段等)
当然,如果您不需要快速索引、关键字提升或语义分析,您仍然可以对几个 django 模型字段 i 进行经典的全文搜索:
你检查过 DjangoItem吗?这是一个实验性的 Scrapy 功能,但众所周知它可以工作