网上有一些信息表明 Mahout 的XMLInputFormat可用于在 hadoop 上有效地处理 XML,但我一直无法找到如何使其工作的示例。有人可以指出我正确的方向吗?
我正在使用 Cascalog/Clojure。
网上有一些信息表明 Mahout 的XMLInputFormat可用于在 hadoop 上有效地处理 XML,但我一直无法找到如何使其工作的示例。有人可以指出我正确的方向吗?
我正在使用 Cascalog/Clojure。
看看这个使用记录阅读器的hadoop实现来读取一个xml文件:
http://javatute.com/javatute/faces/post/hadoop/2014/reading-simple-xml-file-using-hadoop.xhtml