django - 使用 Django 构建搜索引擎的建议

Question

我是网络爬虫的新手。我将构建一个搜索引擎，让爬虫保存 Rapidshare 链接，包括 Rapidshare 链接找到的 URL……

换句话说，我要建立一个类似的网站filestube.com

经过一番搜索，我发现Scrapy可以与 Django 一起使用。我试图找到关于 nutch 与 Django 的集成，但什么也没找到

我希望你能给我建立这种网站的建议……尤其是爬虫

score 8 · Accepted Answer

最著名的可插拔应用程序是Django-Haystack，它允许您连接到多个搜索后端：

haystack 允许您使用类似于 Django 自己的 Queryset 语法的 API 来直接使用这些搜索引擎（它们都恰好有自己的 API 和方言）。

如果您只是在抓取工具之后，无论您将使用什么工具：BeautifulSoup或 Scrappy，您都将独自编写 Python 代码来解析您想要解析的内容，然后填充您的 django 模型。
这甚至可以是单独的 python 脚本，在 commands.py 模块中可用。

如果您有很多文件要搜索，您可能需要一个索引，该索引会经常重建并允许快速搜索而无需使用 django ORM。
使用 Solr 索引（例如）使您能够即时创建其他字段，例如基于真实模型字段的虚拟字段（例如：拆分作者的名字和姓氏，添加大写的文件标题字段等）

当然，如果您不需要快速索引、关键字提升或语义分析，您仍然可以对几个 django 模型字段 i 进行经典的全文搜索：

score 1 · Accepted Answer

1

你检查过 DjangoItem吗？这是一个实验性的 Scrapy 功能，但众所周知它可以工作

于 2011-01-12T02:59:02.427 回答

2 回答 2