0

我需要将通用文件摄取构建到 Hive 中。文件非常大 (2GB+),可以是固定的或逗号分隔的 ASCII 或 EBCDIC 文件。在尝试了使用 Talend 的各种技术之后,我正在研究 SERDE。如果我按原样摄取文件并使用模式文件(包含序号位置、列名、类型、长度),我可以创建自定义 SERDE 以将任何输入文件反序列化为配置单元行吗?它的性能如何?

4

1 回答 1

0

自从提出这个问题后,我发现我可以使用COBOL 自定义 SERDE。我还在查看位置文件的正则表达式 SERDE。

于 2018-06-18T19:15:06.307 回答