1

我们正在使用 nutch 来抓取我们的 Intranet 站点。

我们在 xml 文件中提取元数据,在索引阶段(我们修改了 indexer.java 的代码),当在本地模式下运行时,它为我们提供了所需的元数据。

现在,我们想到了在集群模式下使用nutch(使用hadoop),当我们在集群中爬取nutch时,我们能够获取索引而不是我们以前获取的元数据,在本地模式下我们使用(java的IO类到将元写入文件)。对于 hadoop,我们已将其更改为 hadoop 文件系统 io 类。然而,我们无法获得元数据。

有什么解决方案,还是我们遗漏了什么?

提前致谢, 地理

4

1 回答 1

0

我们在 xml 文件中提取元数据,在索引阶段(我们修改了 indexer.java 的代码),当在本地模式下运行时,它为我们提供了所需的元数据。

如您遇到的问题所示,修改索引器不是最佳选择

你可以 :

  • 添加元数据作为注入的一部分(如果您只想对种子执行此操作)
  • 或编写一个自定义索引插件:例如让它从 conf/ 中的文件加载 XML md

conf/ 的内容被添加到作业文件中,并分布在集群的节点上。代码中有很多索引插件的示例。

也许您应该使用 Nutch 用户列表来获得更广泛的受众?

于 2011-01-10T15:38:15.987 回答