0

我今天下载了 Spark-1.4.0 并尝试在 Linux 和 Windows 环境中启动 sparkR shell - bin 目录中的命令sparkR不起作用。任何人都成功启动了 sparkR shell,请。让我知道。

谢谢桑杰

4

1 回答 1

0

我可以帮助您进行 Windows 的设置。不幸的是,我不了解 Linux。我的解决方案如下,我也在我的博客上发布了

此解决方案的一个限制是它仅适用于命令行解释器,这意味着您可以从命令提示符调用 sparkR,但不能使用 RStudio 等任何前端 IDE。我仍在试图弄清楚如何让 sparkR 在 RStudio 上工作。诀窍是确保您正确设置环境变量。我正在使用 Windows 7 HP 版 64 位操作系统。第一步是下载Maven、SBT

将变量名称设置为 `JAVA_HOME(如果您的计算机上未安装 JAVA,请按照以下步骤操作)。接下来将变量值设置为 JDK PATH。在我的例子中,它是 'C:\Program Files\Java\jdk1.7.0_79\'(请输入不带单引号的路径)同样,创建一个新的系统变量并将其命名为 PYTHON_PATH。将变量值设置为计算机上的 Python 路径。在我的例子中,它是“C:\Python27\”(请输入不带单引号的路径)创建一个新的系统变量并将其命名为 HADOOP_HOME。将变量值设置为 C:\winutils。(注意:不需要安装 Hadoop。spark shell 只需要 Hadoop 路径,在这种情况下,它保存了 winutils 的值,这将使我们能够在 windows 环境中编译 spark 程序。创建一个新的系统变量并将其命名为SPARK_HOME。将变量值分配为 Spark 二进制位置的路径。在我的例子中,它位于 'C:\SPARK\BIN' 创建一个新的系统变量并将其命名为 SBT_HOME。将变量值分配为 Spark 二进制位置的路径。在我的例子中,它位于 'C:\PROGRAM FILES (x86)\SBT\' 创建一个新的系统变量并将其命名为 MAVEN_HOME。将变量值分配为 Spark 二进制位置的路径。在我的例子中,它位于'C:\PROGRAM FILES\APACHE MAVEN 3.3.3\' 创建所有这些变量后,接下来选择“系统变量”下的“路径”变量,然后单击“编辑”按钮。将弹出一个名为“编辑系统变量”的窗口。保持变量名称“路径”不变。在变量值中,按照给定的方式附加以下字符串 \SPARK\BIN' 创建一个新的系统变量并将其命名为 SBT_HOME。将变量值分配为 Spark 二进制位置的路径。在我的例子中,它位于 'C:\PROGRAM FILES (x86)\SBT\' 创建一个新的系统变量并将其命名为 MAVEN_HOME。将变量值分配为 Spark 二进制位置的路径。在我的例子中,它位于'C:\PROGRAM FILES\APACHE MAVEN 3.3.3\' 创建所有这些变量后,接下来选择“系统变量”下的“路径”变量,然后单击“编辑”按钮。将弹出一个名为“编辑系统变量”的窗口。保持变量名称“路径”不变。在变量值中,按照给定的方式附加以下字符串 \SPARK\BIN' 创建一个新的系统变量并将其命名为 SBT_HOME。将变量值分配为 Spark 二进制位置的路径。在我的例子中,它位于 'C:\PROGRAM FILES (x86)\SBT\' 创建一个新的系统变量并将其命名为 MAVEN_HOME。将变量值分配为 Spark 二进制位置的路径。在我的例子中,它位于'C:\PROGRAM FILES\APACHE MAVEN 3.3.3\' 创建所有这些变量后,接下来选择“系统变量”下的“路径”变量,然后单击“编辑”按钮。将弹出一个名为“编辑系统变量”的窗口。保持变量名称“路径”不变。在变量值中,按照给定的方式附加以下字符串 将变量值分配为 Spark 二进制位置的路径。在我的例子中,它位于'C:\PROGRAM FILES\APACHE MAVEN 3.3.3\' 创建所有这些变量后,接下来选择“系统变量”下的“路径”变量,然后单击“编辑”按钮。将弹出一个名为“编辑系统变量”的窗口。保持变量名称“路径”不变。在变量值中,按照给定的方式附加以下字符串 将变量值分配为 Spark 二进制位置的路径。在我的例子中,它位于'C:\PROGRAM FILES\APACHE MAVEN 3.3.3\' 创建所有这些变量后,接下来选择“系统变量”下的“路径”变量,然后单击“编辑”按钮。将弹出一个名为“编辑系统变量”的窗口。保持变量名称“路径”不变。在变量值中,按照给定的方式附加以下字符串

%Java_HOME%\bin;%PYTHONPATH%;%SPARK_HOME%;%HADOOP_HOME%;

%MAVEN_HOME%\bin;%M3_HOME%\bin; ' 点击确定按钮关闭环境变量窗口。

现在打开终端(命令提示符窗口)并通过键入命令 pyspark 调用pysparkR。如果你想调用 scala 那么命令是spark-shell

希望这可以帮助。

干杯

于 2015-06-18T05:07:38.710 回答