0

我已经使用 --user 选项安装了 jupyter,它工作正常。我需要在笔记本中运行 spark 并从 HDFS 读取数据,并且与我的个人用户一起运行 jupyter 会导致 HDFS 中的文件权限出现问题。因此,我决定使用 hdfs 用户运行它(我们的集群配置为所有 spark 作业都应该由这个 hdfs 用户运行),但是它找不到/home/myuser/.local我个人用户文件夹中的依赖项。有没有办法告诉 jupyter 以当前用户(hdfs)的身份运行,但在另一个用户的家中寻找二进制文件和依赖项?

我也使用 toree 作为网关,如果这可以打开更多选项。

4

1 回答 1

0

尝试旧的 Hadoop 技巧:

  • 在您自己的用户下运行 Spark 会话
  • 但是在 Spark 环境中,插入一个export HADOOP_USER_NAME=hdfs命令,以便驱动程序注册为hdfs在分配 YARN 执行程序时。

(当然不能与 Kerberos 一起使用;但接下来就是hdfs针对 Kerberos 进行身份验证的问题......)

于 2017-02-09T17:34:28.340 回答