hadoop - 使用 spark-ec2 更改 hadoop 版本

Question

我想知道spark-ec2创建集群时是否可以更改hadoop版本？

我试过了

spark-ec2 -k spark -i ~/.ssh/spark.pem -s 1 launch my-spark-cluster

然后我登录

spark-ec2 -k spark -i ~/.ssh/spark.pem login my-spark-cluster

发现hadoop版本是1.0.4。

我想使用 2.x 版本的 hadoop，配置它的最佳方法是什么？

score 8 · Accepted Answer

Hadoop 2.0

spark-ec2脚本不支持修改现有集群，但您可以使用 Hadoop 2创建新的 Spark 集群。

请参阅脚本的以下摘录--help：

  --hadoop-major-version=HADOOP_MAJOR_VERSION
                    Major version of Hadoop (default: 1)

例如：

spark-ec2 -k spark -i ~/.ssh/spark.pem -s 1 --hadoop-major-version=2 launch my-spark-cluster

..将使用当前版本的 Spark 和 Hadoop 2 为您创建一个集群。

如果您使用 Spark v. 1.3.1 或 Spark v. 1.4.0 并将创建一个独立集群，那么您将通过这种方式获得Hadoop v. 2.0.0 MR1（来自 Cloudera Hadoop Platform 4.2.0 发行版）。

警告是：

由于错误，此 Hadoop 版本尚不支持某些功能 -例如使用 Tachyon 时存在问题，
尽管理论上在 Spark 1.4.0 中，您可以使用 spark-ec2 创建 YARN 集群，但截至 2015 年 6 月，它的 [尚未记录] 并且我们尝试使用它失败了，

..但我已经成功使用了一些使用 Hadoop 2.0.0 创建的 Spark 1.2.0 和 1.3.1 集群，使用了一些 Hadoop2 特定的功能。（对于 Spark 1.2.0 进行了一些调整，我已将其放入Spark和spark-ec2的分支中，但这是另一回事。）

如果您需要Hadoop 2.4或Hadoop 2.6，那么我目前（截至 2015 年 6 月）建议您手动创建一个独立集群 - 这比您想象的要容易。