Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我有一个包含 600K 记录的 3 GB XML 文件,我需要每天使用 Hadoop 处理这些记录。基本上我需要将这些记录存储在 Hbase 中。这样做的有效方法是什么?我应该拆分文件并让多个映射器处理文件吗?你能推荐一种快速的分割方法吗?
谢谢。
如果您拆分文件,您可以从代码中调用命令行 xml 文件拆分器。有些是商业的,有些是操作系统。谷歌“拆分大 xml”