我要制作自己的搜索引擎。
在搜索搜索引擎、爬虫等时,我对Nutch感到困惑。
我不明白 Nutch 是什么。是供内部使用,如 Lucene(如果我错了,请纠正我)还是用于创建搜索引擎的框架(例如:google、bing、yahoo)?
我要制作自己的搜索引擎。
在搜索搜索引擎、爬虫等时,我对Nutch感到困惑。
我不明白 Nutch 是什么。是供内部使用,如 Lucene(如果我错了,请纠正我)还是用于创建搜索引擎的框架(例如:google、bing、yahoo)?
Nutch 是一个功能齐全的搜索引擎——它可以抓取外部网站,并且理解和尊重 robots.txt。
http://nutch.apache.org/about.html
概述 Nutch 是开源网络搜索软件。它建立在 Lucene 和 Solr 之上,添加了 Web 特性,例如爬虫、链接图数据库、HTML 和其他文档格式的解析器等。
Nutch 可以在单台机器上运行,但从运行在 Hadoop 集群中获得了很多优势
可以使用插件机制来增强系统(例如可以解析其他文档格式)。
有关 Nutch 的更多信息,请参阅 Nutch wiki。
Nutch 是一个现成的、可配置的网络爬虫,带有用于执行搜索的 Java Servlet。如果你想把它作为一个项目来做,Nutch 可能做的太多了,因为剩下的就是创建用于输入搜索和显示结果的页面。