4

我有一堆 CSV 的 zip 文件,我想从中创建 Hive 表。我正在尝试找出最好的方法。

  • 解压缩文件,将它们上传到 HDFS。
  • 有没有办法将文件复制到HDFS,解压缩
  • 或者还有其他更好/推荐的方法吗?
4

1 回答 1

3

通常的做法是将 CSV 文件转换为制表符分隔或 Ctrl A 或 Ctrl B 分隔,然后将其上传到 Hadoop/Hive。

要将文件上传到 HDFS,您可以使用以下命令 -

hadoop fs -put file_to_uplload hdfs_path

我假设你想自动化这个。在这种情况下,以下说明会有所帮助。

  1. 创建带有映射到 CSV 文件字段的列的配置单元表。(您可以在此步骤中删除不必要的字段)。在 hive create table 语句中选择您的分隔符。

  2. 将 csv 文件转换为分隔格式(Ctrl A 或 Ctrl B)

  3. 将文件上传到 Hive 表位置。

您可以使用 python 批处理脚本/框架自动执行有关步骤。

进一步阅读: http ://wiki.apache.org/hadoop/Hive/GettingStarted

于 2011-06-17T09:05:20.203 回答