Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我可以使用Nutch抓取和索引网页,但我不知道如何读取索引并从中提取数据。
谁能向我介绍一些有用的工具来阅读索引?
我想添加一个中文分析器和一个IndexFilter插件,所以我想阅读索引来验证我的插件。而且,我想对使用 Java 抓取的数据进行一些处理。
IndexFilter
使用luke 工具浏览 nutch 索引。转储索引选项可以为整个索引创建一个 xml 文件。如果你必须通过代码来做,那么你需要学习 lucene。
要阅读爬取的内容,请使用nutch 段阅读器。
您可以使用提供的读取命令,例如
bin/nutch readseg xxx
阅读内容。
希望这会对你有所帮助。