我需要将 hdfs 中的文本文件移动到 aws s3。HDFS 中的文件是文本文件,没有分区。迁移后的 S3 文件的输出应该在 orc 中,并在特定列上分区。最后在这些数据之上创建一个配置单元表。
实现此目的的一种方法是使用 spark。但我想知道,这是否可以使用 Distcp 将文件复制为 ORC。
想知道任何其他最佳选择可用于完成上述任务。
提前致谢。
我需要将 hdfs 中的文本文件移动到 aws s3。HDFS 中的文件是文本文件,没有分区。迁移后的 S3 文件的输出应该在 orc 中,并在特定列上分区。最后在这些数据之上创建一个配置单元表。
实现此目的的一种方法是使用 spark。但我想知道,这是否可以使用 Distcp 将文件复制为 ORC。
想知道任何其他最佳选择可用于完成上述任务。
提前致谢。