0

我有lzo格式的csv 文件,HDFS我想将这些文件加载​​到 s3 中,然后加载到雪花中,因为雪花不提供 csv 文件格式的 lzo 压缩,我需要在将这些文件加载​​到 s3 时动态转换它。

4

2 回答 2

0

您可以考虑使用 Lambda 函数在登陆 s3 时解压缩文件,这里有一个链接可以让您到达那里:

https://medium.com/@johnpaulhayes/how-extract-a-huge-zip-file-in-an-amazon-s3-bucket-by-using-aws-lambda-and-python-e32c6cf58f06

于 2020-05-20T21:00:06.733 回答
0

这个答案帮助我转换.lzo_deflate为所需的雪花兼容输出格式:

hadoop jar $HADOOP_HOME/contrib/streaming/hadoop-streaming-0.20.2-cdh3u2.jar \
  -Dmapred.output.compress=true \
  -Dmapred.compress.map.output=true \
  -Dmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec \
  -Dmapred.reduce.tasks=0 \
  -input <input-path> \
  -output $OUTPUT \
  -mapper "cut -f 2"
于 2020-05-21T19:10:10.423 回答