nutch - nutch + mysql 集成

Question

当nutch在索引阶段完成它的循环（即抓取-获取-解析-索引）时，我不希望nutch索引（lucene索引），但我希望nutch放置所有爬取的数据（我相信他将它们保留为NutchDocument对象）使用我的代码进入 mysql。

有没有办法做到这一点？

谢谢

score 4 · Accepted Answer

创建您自己的 Java 类来管理 Nutch 循环。它应该类似于 org.apache.nutch.crawl.Crawl 但您必须通过调用 Mysql 连接器来替换对索引器的调用。或者，您可以在每个周期中调用您的 Mysql 连接器，具体取决于您是要在爬网结束时还是在爬网时更新 Mysql。

1 回答 1