我想实现一个搜索引擎,它应该抓取一组网站,从页面中提取特定信息并创建该特定信息的全文索引。
在我看来,Xapian 可能是搜索引擎库的不错选择。
爬虫/解析器与 Xapian 集成的选项有哪些?
在与开源爬虫/解析器集成时,Solr 会比 Xapian 更好吗?
我想实现一个搜索引擎,它应该抓取一组网站,从页面中提取特定信息并创建该特定信息的全文索引。
在我看来,Xapian 可能是搜索引擎库的不错选择。
爬虫/解析器与 Xapian 集成的选项有哪些?
在与开源爬虫/解析器集成时,Solr 会比 Xapian 更好吗?
这是Xapian 和 Solr 之间的一个小比较。
但是如果你想构建一个爬虫,看看Nutch。它可以通过 plugins 进行扩展,因此您可以编写一个插件来分析您正在寻找的信息。
亚麻可能会提供您正在寻找的一些东西。