14

我有一个带有几个压缩 CSV 文件(使用日志)的 S3 存储桶。我想用 Athena 查询这些数据,但输出完全是乱码。

似乎 Athena 正在尝试解析 zip 文件而不先解压缩它们。是否可以强制 Hive 将我的文件识别为压缩数据?

4

1 回答 1

30

支持 Athena 压缩,但支持的格式

  • 活泼的 (.snappy)
  • Zlib (.bz2)
  • GZIP (.gz)

这些格式由它们的文件名后缀检测。如果后缀不匹配,则阅读器不会解码内容。我用 test.csv.gz 文件对其进行了测试,它立即工作。因此,尝试将压缩从 zip 更改为 gzip,它应该可以工作。

于 2016-12-19T21:05:27.713 回答