0

嗨,我还是 Airflow 的新手。我想知道 Airflow 如何连接到 Spark?我有一台具有不同帐户(或配置文件)的服务器来访问 Spark 集群。我想知道气流是否有固定的轮廓来连接火花?或者它遵循用户配置文件?

另外,是否可以在 Airflow 中为用户设置不同的访问权限?例如,在 Spark(或 hdfs)中有权访问位置 A 的用户 A 只能运行与位置 A 相关的任务。(因此无法从位置 B 运行任何作业)

提前致谢。

4

1 回答 1

0

你可以在 Airflow repo 的 conrtib 文件夹中查看社区贡献的 SparkSubmitOperator。基本上,这个操作符通过 python 运行一个 spark-submit 子进程并等待它的完成。自上一个稳定版本 (1.8.1) 以来,此运算符已得到显着改进。如果您已经设置了火花并且不希望气流控制火花作业的运行位置,这将非常有效。

用户权限问题更为复杂。您可能能够修复它的一种方法是修改 SparkSubmitOperator 以设置子流程的环境参数,并将此参数作为(额外)输入到此运算符。

于 2017-06-14T12:08:26.783 回答