3

我是 Amazon Services 的新手,并尝试在 Amazon EMR 中运行该应用程序。

为此,我已按照以下步骤操作:

1) 创建了包含 --> create table 的 Hive 脚本,在 Hive 中使用一些文件加载​​数据语句并从命令中选择 *。

2) 创建 S3 存储桶。我将对象加载到其中:Hive 脚本,文件加载到表中。

3) 然后创建作业流程(使用示例 Hive 程序)。给定输入、输出和脚本路径(如 s3n://bucketname/script.q、s3n://bucketname/input.txt、s3n://bucketname/out/)。没有创建目录。我认为它会自动创建。

4) 然后 Job Flow 开始运行,一段时间后我看到状态为 STARTING、BOOTSTRAPING、RUNNING 和 SHUT DOWN。

5) 在运行 SHUT DOWN 状态时,它会自动终止,显示 SHUT DOWN 的 FAILES 状态。

然后在 S3 上,我没有看到 out 目录。如何查看输出?我看到了守护进程、节点等目录......

以及如何在 Amazon EMR 中查看来自 HDFS 的数据?

4

1 回答 1

2

您在步骤 3 中指定的输出路径应包含您的结果(根据您的描述,它是 s3n://bucketname/out/)

如果没有,那么您的 Hive 脚本出了点问题。如果您的 Hive 作业失败,您将在 jobtracker 日志中找到有关失败/异常的信息。jobtracker 日志存在于<s3 log location>/daemons/<master instance name>/hadoop-hadoop-jobtracker-<some Amazon internal IP>.log

您的日志目录中只有一个文件具有上述格式的 S3 密钥。该文件将包含任何可能发生的异常。您可能希望专注于文件的底部。

于 2012-04-26T03:55:02.330 回答