0

我正在使用 spark-submit 选项提交 Pyspark/SparkSQL 脚本,我需要将运行时变量(数据库名称)传递给脚本

火花提交命令:

spark-submit --conf database_parameter=my_database my_pyspark_script.py

pyspark 脚本

database_parameter = SparkContext.getConf().get("database_parameter")           

DF = sqlContext.sql("SELECT count(*) FROM database_parameter.table_name")

spark版本是:1.5.2
Python版本是:2.7.5

我正在尝试的解决方案不起作用。错误是:AttributeError:类型对象“SparkConf”没有属性“getConf”。

我正在寻找一种方法来传递运行时变量,同时通过 spark-submit 调用脚本并在脚本中使用这些变量。

4

1 回答 1

3

你可以使用通常的sys.argv

参数文件

#!/usr/bin/python

import sys
print sys.argv[1]

然后你spark-submit它:

spark-submit args.py my_database 

这将打印:

my_database
于 2017-07-25T09:36:30.377 回答