我需要将几个 XML 解析为 TSV,XML 文件的大小约为 50 GB,我基本上怀疑我应该选择解析这个的实现我有两个选项
- 使用 SAXParser
- 使用 Hadoop
我对 SAXParser 实现有一些想法,但我认为可以访问 Hadoop 集群,我应该使用 Hadoop,因为这就是 hadoop 的用途,即大数据
有人可以提供一个提示/文档,说明如何在 Hadoop 中执行此操作,或者为如此大的文件提供有效的 SAXParser 实现,或者更确切地说,我应该为 Hadoop 或 SAXparser 做什么?