我为大小接近 500 行的 XML 文件做了以下解决方案:
使用XSLT 转换将大型 XML 文件转换为具有所需元素文件的较小 XML- 比在 java 代码中使用 SAXON XML 解析器我解析了这些新生成的文件
- 与使用 JAXB 的概念相比,我将 XML 解组为 java 对象而不是 SQL SERVER。
但现在我有新的 XML 文件,它们非常大,将近 15000 行或更多行,而且非常非结构化。因此使用上述解决方案获取数据库中的数据将非常低效。我试图找出处理这些大文件的最佳解决方案。我做了一些研究,发现了这个名为“Altova XML spy”的工具,我可以使用它来降低我的非结构化 XML 文件的复杂性。我尝试使用这个工具处理单个大文件,但效果不佳。我还想将这些大文件转储到 hadoop 集群中并使用 Hive/Pig 获取数据。
所以我的问题是任何人都可以提出任何新的解决方案或程序。我可以使用任何工具将大型 XML 文件制作成不太复杂的文件来使用。
希望这么多信息就足够了。让我知道是否还有其他需要。
先感谢您。