0

我已经在 EC2 上成功部署了 Cloudera Director 和 Cloudera Manager。我可以从浏览器访问 director 和 manager 实例,并且可以对这些实例执行 ssh。Cloudera Manager 服务器和代理运行良好,并通过运行以下命令进行检查。

下一步是 - 我要部署集群。然而它失败了,我得到了Bootstrap failed error。我检查了 director 上的 application.log 文件,发现异常为 - 原因:

java.net.ConnectException:ConnectException 调用 http://:7180/api/v6/commands/158:连接被拒绝(连接被拒绝)

检查服务状态后,我发现在部署集群期间,cloudera-scm-manager 服务以某种方式停止(cloudera-scm-server)。但是,在部署集群之前,我已经验证 cloudera-scm-server 服务已启动并正在运行。

我尝试多次部署集群并使用 t2 small 和 m4 large 实例类型。我得到了同样的例外。

出现错误后,如果我重新启动 cloudera-scm-service,它会启动并且工作正常。但是在集群部署期间,它会自动停止,我猜集群部署会失败。不知道如何以及为什么?

知道可能是什么问题吗?有人可以提供任何指示/帮助来解决这个问题吗?

用于部署的版本详细信息如下 -

  • Cloudera Director 版本 - 2.4.1
  • Cloudera 管理器版本 - 5.11.1
  • EC2 实例 - 尝试使用 t2 small 和 m4 large 实例类型。
  • EC2 实例操作系统 - RHEL 6.7,64 位
  • 已选择集群配置 - 1 个主节点、1 个工作节点、1 个网关
  • 已选择集群服务 - Core Hadoop with Spark on YARN(这包括以下服务 - HDFS、Hive、Hue、Oozie、Spark on YARN、YARN、ZooKeeper)

任何帮助/输入/指针来解决这个问题,非常感谢。

提前非常感谢。

-皮库

4

1 回答 1

2

皮库

根据您的症状,我的第一个猜测是您的 CM 实例太小。Linux 有一个 OOM Killer,如果没有足够的内存供操作系统运行,它将终止任意进程。这可能是您没有看到 cloudera-scm-service 正在运行的原因。我相信您可以在 /var/log/messages 中找到与 OOM Killer 相关的“确凿证据”。

有关实例类型的建议,请参阅 Cloudera Enterprise Reference Architecture for AWS Deployments。 http://www.cloudera.com/documentation/other/reference-architecture/PDF/cloudera_ref_arch_aws.pdf

祝你好运!大卫

于 2017-07-05T13:21:59.340 回答