0

想知道是否有其他人遇到过这个问题,以及如何解决。

我的 Pig 脚本“需要”输出为 XML。主体构建 XML 如下:

<Item><Val1>abc</Val1><Val2>qwe</Val2></Item>

<Item><Val1>tre</Val1><Val2>bnm</Val2></Item>

问题在于它不是有效的 XML。我需要这样包装:

<Items>
<Item>...</Item>
</Items>

但是如何在 Pig/Hadoop 中做到这一点?输出文件被拆分为多个 part-XXXXX 文件,因此只能在合并时完成。

或者 XML 是完全错误的方法,它总是 JSON!

谢谢

邓肯

4

1 回答 1

1

这是一种可能的解决方案。您可以GROUP ALL在您之前立即执行STORE以确保只part-XXXXX输出一个文件,这将使您可以使用所需的<Items>标签包装整个 XML 块。

于 2013-08-19T08:18:33.463 回答