-1

我需要将 hdfs 中的文本文件移动到 aws s3。HDFS 中的文件是文本文件,没有分区。迁移后的 S3 文件的输出应该在 orc 中,并在特定列上分区。最后在这些数据之上创建一个配置单元表。

实现此目的的一种方法是使用 spark。但我想知道,这是否可以使用 Distcp 将文件复制为 ORC。

想知道任何其他最佳选择可用于完成上述任务。

提前致谢。

4

1 回答 1

1

DistCp 只是一个复制命令;它不做任何转换。您正在尝试执行生成一些 ORC 格式输出的查询。您将不得不使用 Hive、Spark 或 Hadoop MapReduce 等工具来执行此操作。

于 2018-04-24T20:17:18.633 回答