4

我可以使用Nutch抓取和索引网页,但我不知道如何读取索引并从中提取数据。

谁能向我介绍一些有用的工具来阅读索引?

我想添加一个中文分析器和一个IndexFilter插件,所以我想阅读索引来验证我的插件。而且,我想对使用 Java 抓取的数据进行一些处理。

4

2 回答 2

0

使用luke 工具浏览 nutch 索引。转储索引选项可以为整个索引创建一个 xml 文件。如果你必须通过代码来做,那么你需要学习 lucene。

要阅读爬取的内容,请使用nutch 段阅读器

于 2012-04-23T03:11:00.470 回答
0

您可以使用提供的读取命令,例如

bin/nutch readseg xxx

阅读内容。

希望会对你有所帮助。

于 2012-04-24T09:07:59.403 回答