4

我是 Spark 的初学者,并尝试按照此处关于如何使用 cmd 从 Python 初始化 Spark shell 的说明进行操作:http: //spark.apache.org/docs/latest/quick-start.html

但是当我在 cmd 中运行以下内容时:

C:\Users\Alex\Desktop\spark-1.4.1-bin-hadoop2.4\>c:\Python27\python bin\pyspark 

然后我收到以下错误消息:

File "bin\pyspark", line 21 
export SPARK_HOME="$(cd ="$(cd "`dirname "$0"`"/..; pwd)" 
SyntaxError: invalid syntax

我在这里做错了什么?

PS在cmd中我尝试一下C:\Users\Alex\Desktop\spark-1.4.1-bin-hadoop2.4>bin\pyspark

然后我收到""python" is not recognized as internal or external command, operable program or batch file".

4

5 回答 5

2

您需要在系统路径中提供 Python,您可以使用以下命令添加它setx

setx path "%path%;C:\Python27"
于 2015-07-28T05:18:52.210 回答
1

我是一个相当新的 Spark 用户(从今天开始,真的)。我在 Windows 10 和 7 机器上使用 spark 1.6.0。以下对我有用:

import os

import sys

spark_home = os.environ.get('SPARK_HOME', None)

if not spark_home:

raise ValueError('SPARK_HOME environment variable is not set')

sys.path.insert(0, os.path.join(spark_home, 'python'))

sys.path.insert(0, os.path.join(spark_home, 'C:/spark-1.6.0-bin-hadoop2.6/python/lib/py4j-0.9-src.zip'))

execfile(os.path.join(spark_home, 'python/pyspark/shell.py'))

使用上面的代码,我能够在 IPython 笔记本和我的 Enthought Canopy Python IDE 中启动 Spark。在此之前,我只能通过 cmd 提示符启动 pyspark。仅当您为 Python 和 Spark (pyspark) 正确设置了环境变量时,上面的代码才有效。

于 2016-02-12T02:45:02.170 回答
0

在用户“maxymoo”的参考和帮助下,我能够找到一种设置永久路径的方法,Windows 7 也是如此。说明在这里:

http://geekswithblogs.net/renso/archive/2009/10/21/how-to-set-the-windows-path-in-windows-7.aspx

于 2015-07-28T18:09:43.127 回答
0

每当我在 ipython 中启动 pyspark 时,我都会运行这些路径设置:

import os
import sys
# Sys.setenv('SPARKR_SUBMIT_ARGS'='"--packages" "com.databricks:spark-csv_2.10:1.0.3" "sparkr-shell"') for R
### MANNN restart spart using ipython notebook --profile=pyspark --packages com.databricks:spark-csv_2.10:1.0.3  
os.environ['SPARK_HOME']="G:/Spark/spark-1.5.1-bin-hadoop2.6"

sys.path.append("G:/Spark/spark-1.5.1-bin-hadoop2.6/bin") 
sys.path.append("G:/Spark/spark-1.5.1-bin-hadoop2.6/python") 
sys.path.append("G:/Spark/spark-1.5.1-bin-hadoop2.6/python/pyspark/") 
sys.path.append("G:/Spark/spark-1.5.1-bin-hadoop2.6/python/pyspark/sql")
sys.path.append("G:/Spark/spark-1.5.1-bin-hadoop2.6/python/pyspark/mllib")
sys.path.append("G:/Spark/spark-1.5.1-bin-hadoop2.6/python/lib") 
sys.path.append("G:/Spark/spark-1.5.1-bin-hadoop2.6/python/lib/pyspark.zip")
sys.path.append("G:/Spark/spark-1.5.1-bin-hadoop2.6/python/lib/py4j-0.8.2.1-src.zip") 
sys.path.append("G:/Spark/spark-1.5.1-bin-hadoop2.6/python/lib/pyspark.zip")

from pyspark import SparkContext 
from pyspark import SparkConf
from pyspark import SQLContext 

##sc.stop() # IF you wish to stop the context
sc = SparkContext("local", "Simple App")
于 2016-03-02T05:40:28.817 回答
0

只需在系统 -> 环境变量 -> 路径中设置路径

  • 我系统中的 R 路径 C:\Program Files\R\R-3.2.3\bin
  • 我系统中的 Python 路径 c:\python27
  • 我系统中的 Spark 路径 c:\spark-2

路径必须用“;”隔开 并且路径之间不能有空格

于 2017-04-04T19:58:02.020 回答