我在 hdfs 中有近 200 多个 xml 文件。我使用 XmlInputFormat(mahout 的)来流式传输元素。映射器能够获取 xml 内容并对其进行处理。但问题是只有第一个 xml 文件被单独处理。但是当我们处理大量的小文本文件时,处理完第一个文件后,下一个文件将由 Hadoop 传递给映射器。让我知道这是否不是 xml 文件的默认行为,以及应该如何迭代整个 xml 文件集。谢谢。
问问题
453 次
1 回答
1
我很幸运地使用了普通的XmlStreamRecordReader类,然后在标准输入上循环(使用 Python、Hadoop Streaming API)。
文件有多大,您是在单个系统还是多节点集群上运行它?HDFS 块大小设置为多少?
于 2011-08-17T20:38:14.187 回答