我对 Hadoop 和 Pig 都很陌生。我已经能够做一些简单的程序,但是当 XML 文件的一部分格式不正确时,一个对我来说很费力的程序是处理 XML。
我可以使用 XMLLoader('tag') 从一个很棒的 xml 文件中获取所有标签。然而,如果一个人错过了一个结构良好的封闭标签猪将停在那一个。例如
<tag>
</tag>
<tag>
</tag1>
<tag>
</tag>
这只会拾取第一个有效标签。现在,我有使用 JAQL 的经验并且能够忽略错误记录,以便应用程序获取第二个标签。
我的问题是:他们是一种使用 Pig 而不是 JAQL 来处理糟糕的 XML 格式的方法吗?