我们正在使用 nutch 来抓取我们的 Intranet 站点。
我们在 xml 文件中提取元数据,在索引阶段(我们修改了 indexer.java 的代码),当在本地模式下运行时,它为我们提供了所需的元数据。
现在,我们想到了在集群模式下使用nutch(使用hadoop),当我们在集群中爬取nutch时,我们能够获取索引而不是我们以前获取的元数据,在本地模式下我们使用(java的IO类到将元写入文件)。对于 hadoop,我们已将其更改为 hadoop 文件系统 io 类。然而,我们无法获得元数据。
有什么解决方案,还是我们遗漏了什么?
提前致谢, 地理