我正在尝试将 193 GB 数据从 s3 复制到 HDFS。我正在为 s3-dist-cp 和 hadoop distcp 运行以下命令:
s3-dist-cp --src s3a://PathToFile/file1 --dest hdfs:///user/hadoop/S3CopiedFiles/
hadoop distcp s3a://PathToFile/file1 hdfs:///user/hadoop/S3CopiedFiles/
我在主节点上运行这些,并检查转移的金额。花了大约一个小时,复制过来后,所有内容都被删除了,我的集群中的 4 个核心实例中的磁盘空间显示为 99.8%,并且 hadoop 作业永远运行。一旦我运行命令,
16/07/18 18:43:55 INFO mapreduce.Job: map 0% reduce 0%
16/07/18 18:44:02 INFO mapreduce.Job: map 100% reduce 0%
16/07/18 18:44:08 INFO mapreduce.Job: map 100% reduce 14%
16/07/18 18:44:11 INFO mapreduce.Job: map 100% reduce 29%
16/07/18 18:44:13 INFO mapreduce.Job: map 100% reduce 86%
16/07/18 18:44:18 INFO mapreduce.Job: map 100% reduce 100%
这会立即打印,然后复制一个小时的数据。它重新开始。
16/07/18 19:52:45 INFO mapreduce.Job: map 0% reduce 0%
16/07/18 18:52:53 INFO mapreduce.Job: map 100% reduce 0%
我在这里错过了什么吗?任何帮助表示赞赏。
另外我想知道在哪里可以找到主节点上的日志文件以查看作业是否失败并因此循环?谢谢