所以这是一种情况,我有一个未配置 Kerberos 安全性和工作站的 hadoop 集群。Hadoop 集群运行 Cloudera CDH3 发行版。集群上的数据全部存储在“hdfs”用户下。
工作站是运行嵌入 PIG 客户端的复杂软件的 linux 或 macos 工作站。PIG 客户端连接到集群以运行分析作业。
这是一个问题。集群和工作站上的用户帐户不同,hadoop 集群中的所有数据都存储在“hdfs”主目录用户下,工作站拥有完整的用户帐户集。是否可以告诉 PIG 在不同的用户帐户下执行作业。当前 pig 尝试使用当前登录到工作站的用户帐户执行作业。该作业实际运行,但它无法访问数据,因为脚本使用相对于 HDFS 用户主目录的路径。
我知道,当没有为集群配置安全性时,用户名只是通过作业配置 .XML 传递,但由于某种原因,我无法弄清楚如何将我需要的用户名强制到该 XML 文档中。