0

我有一个包含 600K 记录的 3 GB XML 文件,我需要每天使用 Hadoop 处理这些记录。基本上我需要将这些记录存储在 Hbase 中。这样做的有效方法是什么?我应该拆分文件并让多个映射器处理文件吗?你能推荐一种快速的分割方法吗?

谢谢。

4

1 回答 1

0

如果您拆分文件,您可以从代码中调用命令行 xml 文件拆分器。有些是商业的,有些是操作系统。谷歌“拆分大 xml”

于 2013-09-20T19:31:39.907 回答