问题标签 [python-hdfs]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python-3.x - 使用 Python3 与 HDFS 交互的最佳模块是什么?
我看到有 hdfs3、snakebite 和其他一些。哪一个是最好的支持和全面的?
python - in python hdfs Is there a way to use wildcard or regex in the list method?
In linux hadoop fs -ls I can use wildcard (/sandbox/*) but the pyhon hdfs client list method fails on this as an unknown path. Is there a different way to use wildcards in python-hdfs?
python-3.x - 使用 Python3.6 使用 serviceID 的 keytab 连接到 HDFS
我正在尝试使用以下代码连接到 hdfs 并执行一些与文件相关的操作。请注意,我正在尝试从安装了 python3.6 的 Centos7 环境连接 Cloudera HDFS 实例。
我在安装了 python3.6 的 centos-7 环境中运行它[PS:没有安装 hdfs 客户端]。
在我执行代码之前,我已经完成了 pip install 如下
在执行我得到如下
我可能在这里缺少一些配置。这个 keytab 可以很好地与 JAVA 应用程序连接到 hdfs。使用 python 它显示此错误。kinit
如果 a) HDFS 客户端需要在执行环境中配置或 b)是需要做的事情,请告知执行上述代码。请注意,我们使用服务 id 通过 keytab 文件连接到 hdfs。
pyarrow - 如何为 pyarrow 设置 libhdfs.so 的路径?
我正在尝试使用 pyarrow,但我不断收到以下错误。
所以我读了一些stackoverflow,它说我需要为ARROW_LIBHDFS_DIR设置环境变量。
libhdfs.so 的路径是 /usr/local/hadoop/native/
它试图在 bashrc 中设置它但它不起作用
conda 安装似乎不起作用,即
如果我得到这个,这将是一个很大的帮助。提前致谢。
python - 如何在 pywebhfds 中通过连接错误?
我有一个本地单节点托管的 hadoop。我的名字和datanode是一样的。
我正在尝试使用 python 库创建一个文件。
该文件存在并且 make_dir 正常工作。但是我的创建文件不断抛出错误我得到的异常是:
我已经为 9000 、 9870 和 9864 启用了防火墙。提前致谢。帮助将不胜感激
python - 使用 Python 将 JSON 内容写入 HDFS 位置
我正在尝试使用 Python 将 JSON 内容写入 HDFS 位置,但是对于我的 JSON 内容中的每个键和值,我看到了 u 和 '' 的前缀。
原始 JSON 内容 {“id”:2344556,“resource_type”:“user”,“ext_uid”:null,“email”:“Richard.John@abc.com”,“name”:“Rich John”,“role” :“经理”,“role_id”:5944 }
输出它在 hdfs 位置写入
{ u'id': u'2344556', u'resource_type': u'user', u'ext_uid': u'null', u'email': u'Richard.John@abc.com', u'name ': u'Rich John', u'role': u'manager', u'role_id': u'5944' } 如何获取不带前缀 u 和 '' 的原始内容 hdfs 文件
python - 如何使用 hdfscli python 库?
我有以下用例,
我想连接一个远程 hadoop 集群。因此,我得到了所有的 hadoop conf 文件(coresite.xml、hdfs-site.xml 等)并将其存储在本地文件系统的一个目录中。我得到了用于 kerberos 身份验证的正确 keytab 和 krb5.conf 文件。我安装了 hadoop 并将解压缩文件放在某个目录下,比如/User/xyz/hadoop
. 我设置了以下环境变量:
JAVA_HOME(), HADOOP_HOME, HADOOP_CONF_DIR
最后将我的 krb5.conf 文件放在/etc/
. 此设置帮助我成功地使用kinit -kt <keytab> <principal user>
和执行 hadoop 命令(例如hadoop fs -ls /
从本地终端)进行身份验证并访问集群。
但是,我想在不下载 hadoop 的情况下执行相同的操作。有办法吗?我正在使用 python 并遇到了这个 hdfs python library。但是,我很难理解和使用这个库。
- 我想要达到的目标,有可能吗?
- 如果是这样,正确的方法是什么?
- 有人可以指导我使用正确的配置设置 hdfscli lib 吗?
python - 如何抑制 HdfsCLI 的 INFO 日志?
我正在将 HdfsCLI 与 Python 一起使用。
我的记录器的基本配置如下:
在那之后,根据所有 python 库似乎都有的令人难以置信的黑暗和晦涩的文档,我改变了(至少我认为我是,但显然不是)HdfsCLI 的日志级别:
这不会影响任何事情,因为我仍然拥有INFO
CLI 的所有级别日志。
如何仅保留此 CLI 的日志ERROR
和CRITICAL
级别?
python-3.x - 将 zip 压缩到 hdfs
我需要将 zip 存档的内容提取到 hdfs。
我收到一个错误,例如 target_path is not a directory:
那么将文件提取到hdfs的正确方法是什么。