我有一个luigi python 任务,其中包括一些 pyspark 库。现在我想用 spark-submit 在 mesos 上提交这个任务。我应该怎么做才能运行它?下面是我的代码骨架:
from pyspark.sql import functions as F
from pyspark import SparkContext
class myClass(SparkSubmitTask):
# date = luigi.DateParameter()
def __init__(self, date):
self.date = date # date is datetime.date.today().isoformat()
def output(self):
def input(self):
def run(self):
# Some functions are using pyspark libs
if __name__ == "__main__":
luigi.run()
如果没有 luigi,我将提交此任务作为以下命令行:
/opt/spark/bin/spark-submit --master mesos://host:port --deploy-mode cluster --total-executor-cores 1 --driver-cores 1 --executor-memory 1G --driver-memory 1G my_module.py
现在的问题是我如何才能提交包含 luigi 命令行的 luigi 任务,例如:
luigi --module my_module myClass --local-scheduler --date 2016-01
还有一个问题是,如果 my_module.py 有一个需要先完成的任务,我是否需要为它做更多的事情,或者只是设置为与当前命令行相同?
我非常感谢您对此的任何提示或建议。非常感谢。