我们正在获取各种 JSON/XML 作为输入,其中模式总是在不断发展。我想在 Hadoop/Hive 环境中使用 ORC 或 Parquet 格式处理它们以提高性能。
我知道以下实现相同目标的常见风格:使用 JSONSerde 或 XMLSerde 库,首先使用这些 serde 创建配置单元表。稍后将在每个 xml/json 配置单元表上触发 select * fields 查询以另存为 orc 或另存为镶木地板到另一个表中。成功完成后,我可以删除这些 Serde 表和 XML/JSON 数据。
做同样的事情的另一种好方法是什么?