我已经有一个使用 Lucene3.5 的项目。
现在我需要提供网络搜索功能,但我不想导入整个 Nutch 项目。
所以我想知道,可能我只能使用 Nutch 的爬虫部分来爬取网站并将它们索引到 Lucene 样式中。
然后使用我现有的 Lucene 搜索器搜索索引文件。
是否可以这样做或者您有什么建议(Heritrix 怎么样)?
我已经有一个使用 Lucene3.5 的项目。
现在我需要提供网络搜索功能,但我不想导入整个 Nutch 项目。
所以我想知道,可能我只能使用 Nutch 的爬虫部分来爬取网站并将它们索引到 Lucene 样式中。
然后使用我现有的 Lucene 搜索器搜索索引文件。
是否可以这样做或者您有什么建议(Heritrix 怎么样)?
是的,可以使用您自己的 lucene 实现来搜索 nutch 生成的索引。我在我们项目的 wiki 中写了一个简短的描述,我们使用 nutch 抓取静态内容。
您可以在这里查看:http ://code.google.com/p/gtxcontentconnector/wiki/HowTo_Nutch
兄弟,克里斯