-1

几天来,我一直在为在集群上安装 Spark 而苦苦挣扎。

因为集群使用 Hadoop 2.2 并且因为我想在 YARN 上使用 PySpark。我不得不使用 MAVEN 构建 Spark。这个过程的输出是一个.jar文件:spark-assembly-1.2.0-hadoop2.2.0.jar(我对Java不熟悉)。如果我尝试使用 Java 在我的任何节点上执行此 .jar 文件(“无法找到或加载主类”),该 .jar 文件将不会运行。

我发现的安装说明涉及运行一个 .sh 文件,这不是我的 MAVEN 构建的输出。

我在这里想念什么?我在文档中找不到答案。

4

1 回答 1

0

您无需使用 Maven 构建 Spark 即可使用 PyShark。您使用预构建的 Spark 包中的提交脚本。

编辑:

导出 MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m" 导出 JAVA_HOME=your_java_home

./make-distribution.sh -Pyarn -Phadoop-2.2

生成的分布将在 dist 目录中。

于 2015-02-10T12:52:27.000 回答