xml - 如何使用 Hadoop 处理大型 XML 文件？

Question

我有一个包含 600K 记录的 3 GB XML 文件，我需要每天使用 Hadoop 处理这些记录。基本上我需要将这些记录存储在 Hbase 中。这样做的有效方法是什么？我应该拆分文件并让多个映射器处理文件吗？你能推荐一种快速的分割方法吗？

谢谢。

score 0 · Accepted Answer

如果您拆分文件，您可以从代码中调用命令行 xml 文件拆分器。有些是商业的，有些是操作系统。谷歌“拆分大 xml”

1 回答 1