1

当nutch在索引阶段完成它的循环(即抓取-获取-解析-索引)时,我不希望nutch索引(lucene索引),但我希望nutch放置所有爬取的数据(我相信他将它们保留为NutchDocument对象)使用我的代码进入 mysql。

有没有办法做到这一点?

谢谢

4

1 回答 1

4

创建您自己的 Java 类来管理 Nutch 循环。它应该类似于 org.apache.nutch.crawl.Crawl 但您必须通过调用 Mysql 连接器来替换对索引器的调用。或者,您可以在每个周期中调用您的 Mysql 连接器,具体取决于您是要在爬网结束时还是在爬网时更新 Mysql。

于 2010-07-12T13:01:18.090 回答