apache-spark - 与另一个用户一起运行用户本地 jupyter 安装

Question

我已经使用 --user 选项安装了 jupyter，它工作正常。我需要在笔记本中运行 spark 并从 HDFS 读取数据，并且与我的个人用户一起运行 jupyter 会导致 HDFS 中的文件权限出现问题。因此，我决定使用 hdfs 用户运行它（我们的集群配置为所有 spark 作业都应该由这个 hdfs 用户运行），但是它找不到/home/myuser/.local我个人用户文件夹中的依赖项。有没有办法告诉 jupyter 以当前用户（hdfs）的身份运行，但在另一个用户的家中寻找二进制文件和依赖项？

我也使用 toree 作为网关，如果这可以打开更多选项。

score 0 · Accepted Answer

尝试旧的 Hadoop 技巧：

在您自己的用户下运行 Spark 会话
但是在 Spark 环境中，插入一个export HADOOP_USER_NAME=hdfs命令，以便驱动程序注册为hdfs在分配 YARN 执行程序时。

（当然不能与 Kerberos 一起使用；但接下来就是hdfs针对 Kerberos 进行身份验证的问题......）

apache-spark - 与另一个用户一起运行用户本地 jupyter 安装

1 回答 1

Related

Reference