我有一堆 CSV 的 zip 文件,我想从中创建 Hive 表。我正在尝试找出最好的方法。
- 解压缩文件,将它们上传到 HDFS。
- 有没有办法将文件复制到HDFS,解压缩
- 或者还有其他更好/推荐的方法吗?
通常的做法是将 CSV 文件转换为制表符分隔或 Ctrl A 或 Ctrl B 分隔,然后将其上传到 Hadoop/Hive。
要将文件上传到 HDFS,您可以使用以下命令 -
hadoop fs -put file_to_uplload hdfs_path
我假设你想自动化这个。在这种情况下,以下说明会有所帮助。
创建带有映射到 CSV 文件字段的列的配置单元表。(您可以在此步骤中删除不必要的字段)。在 hive create table 语句中选择您的分隔符。
将 csv 文件转换为分隔格式(Ctrl A 或 Ctrl B)
您可以使用 python 批处理脚本/框架自动执行有关步骤。