amazon-s3 - 如何在 Amazon EMR/S3 中查看输出？

Question

我是 Amazon Services 的新手，并尝试在 Amazon EMR 中运行该应用程序。

为此，我已按照以下步骤操作：

1) 创建了包含 --> create table 的 Hive 脚本，在 Hive 中使用一些文件加载数据语句并从命令中选择 *。

2) 创建 S3 存储桶。我将对象加载到其中：Hive 脚本，文件加载到表中。

3) 然后创建作业流程（使用示例 Hive 程序）。给定输入、输出和脚本路径（如 s3n://bucketname/script.q、s3n://bucketname/input.txt、s3n://bucketname/out/）。没有创建目录。我认为它会自动创建。

4) 然后 Job Flow 开始运行，一段时间后我看到状态为 STARTING、BOOTSTRAPING、RUNNING 和 SHUT DOWN。

5) 在运行 SHUT DOWN 状态时，它会自动终止，显示 SHUT DOWN 的 FAILES 状态。

然后在 S3 上，我没有看到 out 目录。如何查看输出？我看到了守护进程、节点等目录......

以及如何在 Amazon EMR 中查看来自 HDFS 的数据？

score 2 · Accepted Answer

您在步骤 3 中指定的输出路径应包含您的结果（根据您的描述，它是 s3n://bucketname/out/）

如果没有，那么您的 Hive 脚本出了点问题。如果您的 Hive 作业失败，您将在 jobtracker 日志中找到有关失败/异常的信息。jobtracker 日志存在于<s3 log location>/daemons/<master instance name>/hadoop-hadoop-jobtracker-<some Amazon internal IP>.log

您的日志目录中只有一个文件具有上述格式的 S3 密钥。该文件将包含任何可能发生的异常。您可能希望专注于文件的底部。

amazon-s3 - 如何在 Amazon EMR/S3 中查看输出？

1 回答 1

Related

Reference