目前使用distcp
速度很慢,复制 1 小时的日志需要 4:16 分钟,而我编写的自定义函数只需要 16 秒。鉴于亚马逊提供了s3distcp
涉及日志的示例,我想试一试并测试其性能。
我知道这是可能的,distcp
但是否可以s3distcp
在本地机器上使用将大量数据(可能 100gb+)复制到本地机器上的 hfs 集群而不使用 EMR?
Amazon 和后续教程和文章仅将s3distcp
能力作为 EMR 中的一个步骤。
目前使用distcp
速度很慢,复制 1 小时的日志需要 4:16 分钟,而我编写的自定义函数只需要 16 秒。鉴于亚马逊提供了s3distcp
涉及日志的示例,我想试一试并测试其性能。
我知道这是可能的,distcp
但是否可以s3distcp
在本地机器上使用将大量数据(可能 100gb+)复制到本地机器上的 hfs 集群而不使用 EMR?
Amazon 和后续教程和文章仅将s3distcp
能力作为 EMR 中的一个步骤。