当我运行 Apache Nutch 1.4 爬虫时,我想存储一些额外的信息。我想存储每个 URL 的父级。
例如,我想抓取一个页面 a.html,它有 2 个指向 b.html 和 c.html 的锚链接所以当我抓取 a.html 时,我应该得到这样的东西:-
a.html null
b.html a.html
c.html a.html
我想存储这样的东西。我已经阅读了 nutch 的工作原理,并且也在 eclipse 中运行了 nutch。我还阅读了 fetcher.java 并记录了它获取内容的位置。但是我没有成功知道 Nutch 在哪里获取给定页面的子 URL。我认为这一步发生在解析步骤之后。