我有以下用例,
我想连接一个远程 hadoop 集群。因此,我得到了所有的 hadoop conf 文件(coresite.xml、hdfs-site.xml 等)并将其存储在本地文件系统的一个目录中。我得到了用于 kerberos 身份验证的正确 keytab 和 krb5.conf 文件。我安装了 hadoop 并将解压缩文件放在某个目录下,比如/User/xyz/hadoop
. 我设置了以下环境变量:
JAVA_HOME(), HADOOP_HOME, HADOOP_CONF_DIR
最后将我的 krb5.conf 文件放在/etc/
. 此设置帮助我成功地使用kinit -kt <keytab> <principal user>
和执行 hadoop 命令(例如hadoop fs -ls /
从本地终端)进行身份验证并访问集群。
但是,我想在不下载 hadoop 的情况下执行相同的操作。有办法吗?我正在使用 python 并遇到了这个 hdfs python library。但是,我很难理解和使用这个库。
- 我想要达到的目标,有可能吗?
- 如果是这样,正确的方法是什么?
- 有人可以指导我使用正确的配置设置 hdfscli lib 吗?