amazon-web-services - 如何在 AWS 胶水中检查 Spark 和 Hadoop 的版本？

Question

我将 AWS 与（基本支持计划）一起使用。我想知道在 AWS 粘合作业中使用了哪个版本的 Spark 和 Hadoop (HDFS)。这样我就可以在本地机器上设置相同的环境进行开发。

或者，如果我了解 Spark 的版本，则对应 AWS 胶水作业使用哪个版本的 Hadoop，反之亦然。

因为我正在使用基本支持计划。所以，我不能向支持中心提出案例。知道我可以在哪里签入 AWS 胶水作业……Spark 和 Hadoop 版本吗？

任何形式的帮助和建议表示赞赏。谢谢！

score 9 · Accepted Answer

如果您使用的是 Spark > 2.0，那么

1.In Pyspark:

获取 Spark 版本：

print("Spark Version:" + spark.version)

在火花 < 2.0 中：

sc.version

获取 Hadoop 版本：

print("Hadoop version: " + sc._gateway.jvm.org.apache.hadoop.util.VersionInfo.getVersion())

2.In Scala:

火花版本：

println ("Spark Version:" + spark.version)

在火花 < 2.0 中：

sc.version

Hadoop版本：

println("Hadoop version: " + org.apache.hadoop.util.VersionInfo.getVersion())

score 0 · Accepted Answer

AWS 没有在任何地方记录 AWS Glue 的 hadoop 版本。但是，AWS Glue 实际上是由 AWS EMR 支持的，而 hadoop 版本将是 2.8.x。

根据 AWS EMR 上的以下文档或 hadoop/spark，我假设它是 2.8.3。

其中发布标签 5.12.2 有 spark 2.2.1 和 hadoop 2.8.3

2 回答 2