2

我想实现一个搜索引擎,它应该抓取一组网站,从页面中提取特定信息并创建该特定信息的全文索引。

在我看来,Xapian 可能是搜索引擎库的不错选择。

爬虫/解析器与 Xapian 集成的选项有哪些?

在与开源爬虫/解析器集成时,Solr 会比 Xapian 更好吗?

4

2 回答 2

2

这是Xapian 和 Solr 之间的一个小比较。

但是如果你想构建一个爬虫,看看Nutch。它可以通过 plugins 进行扩展,因此您可以编写一个插件来分析您正在寻找的信息。

于 2008-12-19T01:29:19.083 回答
2

亚麻可能会提供您正在寻找的一些东西。

于 2009-04-20T21:33:02.403 回答