我使用以下命令启动了用于 Spark 开发的 iPython 笔记本:
ipython notebook --profile=pyspark
我sc
使用 Python 代码创建了一个 SparkContext,如下所示:
import sys
import os
os.environ["YARN_CONF_DIR"] = "/etc/hadoop/conf"
sys.path.append("/opt/cloudera/parcels/CDH/lib/spark/python")
sys.path.append("/opt/cloudera/parcels/CDH/lib/spark/python/lib/py4j-0.8.1-src.zip")
from pyspark import SparkContext, SparkConf
from pyspark.sql import *
sconf = SparkConf()
conf = (SparkConf().setMaster("spark://701.datafireball.com:7077")
.setAppName("sparkapp1")
.set("spark.executor.memory", "6g"))
sc = SparkContext(conf=conf)
sqlContext = SQLContext(sc)
我想更好地理解spark.executor.memory
文档中的 ,
每个执行程序进程使用的内存量,格式与 JVM 内存字符串相同
这是否意味着在一个节点上运行的所有进程的累积内存不会超过该上限?如果是这种情况,我应该将该数字设置为尽可能高的数字吗?
这也是一些属性的列表,是否有一些其他参数可以从默认值进行调整以提高性能。
谢谢!