问题标签 [python-hdfs]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

9 问题

0 投票

5 回答

20868 浏览

python-3.x - 使用 Python3 与 HDFS 交互的最佳模块是什么？

我看到有 hdfs3、snakebite 和其他一些。哪一个是最好的支持和全面的？

2016-10-27T12:57:09.267

0 投票

1 回答

251 浏览

python - in python hdfs Is there a way to use wildcard or regex in the list method?

In linux hadoop fs -ls I can use wildcard (/sandbox/*) but the pyhon hdfs client list method fails on this as an unknown path. Is there a different way to use wildcards in python-hdfs?

python regex wildcard python-hdfs

2019-11-07T08:32:07.567

0 投票

1 回答

793 浏览

python-3.x - 使用 Python3.6 使用 serviceID 的 keytab 连接到 HDFS

我正在尝试使用以下代码连接到 hdfs 并执行一些与文件相关的操作。请注意，我正在尝试从安装了 python3.6 的 Centos7 环境连接 Cloudera HDFS 实例。

我在安装了 python3.6 的 centos-7 环境中运行它[PS：没有安装 hdfs 客户端]。
在我执行代码之前，我已经完成了 pip install 如下

在执行我得到如下

我可能在这里缺少一些配置。这个 keytab 可以很好地与 JAVA 应用程序连接到 hdfs。使用 python 它显示此错误。kinit如果 a) HDFS 客户端需要在执行环境中配置或 b)是需要做的事情，请告知执行上述代码。请注意，我们使用服务 id 通过 keytab 文件连接到 hdfs。

python-3.x kerberos keytab python-hdfs

2020-06-30T15:21:25.193

0 投票

1 回答

1820 浏览

pyarrow - 如何为 pyarrow 设置 libhdfs.so 的路径？

我正在尝试使用 pyarrow，但我不断收到以下错误。

所以我读了一些stackoverflow，它说我需要为ARROW_LIBHDFS_DIR设置环境变量。
libhdfs.so 的路径是 /usr/local/hadoop/native/
它试图在 bashrc 中设置它但它不起作用
conda 安装似乎不起作用，即

如果我得到这个，这将是一个很大的帮助。提前致谢。

pyarrow libhdfs python-hdfs

2020-07-30T12:17:27.060

0 投票

1 回答

132 浏览

python - 如何在 pywebhfds 中通过连接错误？

我有一个本地单节点托管的 hadoop。我的名字和datanode是一样的。

我正在尝试使用 python 库创建一个文件。

该文件存在并且 make_dir 正常工作。但是我的创建文件不断抛出错误我得到的异常是：

我已经为 9000 、 9870 和 9864 启用了防火墙。提前致谢。帮助将不胜感激

python hadoop webhdfs pyhdfs-client python-hdfs

2020-08-03T10:38:13.157

0 投票

0 回答

83 浏览

python - 使用 Python 将 JSON 内容写入 HDFS 位置

我正在尝试使用 Python 将 JSON 内容写入 HDFS 位置，但是对于我的 JSON 内容中的每个键和值，我看到了 u 和 '' 的前缀。

原始 JSON 内容 {“id”：2344556，“resource_type”：“user”，“ext_uid”：null，“email”：“Richard.John@abc.com”，“name”：“Rich John”，“role” ：“经理”，“role_id”：5944 }

输出它在 hdfs 位置写入

{ u'id': u'2344556', u'resource_type': u'user', u'ext_uid': u'null', u'email': u'Richard.John@abc.com', u'name ': u'Rich John', u'role': u'manager', u'role_id': u'5944' } 如何获取不带前缀 u 和 '' 的原始内容 hdfs 文件

python json hdfs python-hdfs

2020-12-16T00:00:45.077

0 投票

0 回答

266 浏览

python - 如何使用 hdfscli python 库？

我有以下用例，
我想连接一个远程 hadoop 集群。因此，我得到了所有的 hadoop conf 文件（coresite.xml、hdfs-site.xml 等）并将其存储在本地文件系统的一个目录中。我得到了用于 kerberos 身份验证的正确 keytab 和 krb5.conf 文件。我安装了 hadoop 并将解压缩文件放在某个目录下，比如/User/xyz/hadoop. 我设置了以下环境变量： JAVA_HOME(), HADOOP_HOME, HADOOP_CONF_DIR最后将我的 krb5.conf 文件放在/etc/. 此设置帮助我成功地使用kinit -kt <keytab> <principal user>和执行 hadoop 命令（例如hadoop fs -ls /从本地终端）进行身份验证并访问集群。

但是，我想在不下载 hadoop 的情况下执行相同的操作。有办法吗？我正在使用 python 并遇到了这个 hdfs python library。但是，我很难理解和使用这个库。

我想要达到的目标，有可能吗？
如果是这样，正确的方法是什么？
有人可以指导我使用正确的配置设置 hdfscli lib 吗？

python hadoop webhdfs pyhdfs-client python-hdfs

2021-02-10T00:52:07.610

0 投票

0 回答

14 浏览

python - 如何抑制 HdfsCLI 的 INFO 日志？

我正在将 HdfsCLI 与 Python 一起使用。

我的记录器的基本配置如下：

在那之后，根据所有 python 库似乎都有的令人难以置信的黑暗和晦涩的文档，我改变了（至少我认为我是，但显然不是）HdfsCLI 的日志级别：

这不会影响任何事情，因为我仍然拥有INFOCLI 的所有级别日志。

如何仅保留此 CLI 的日志ERROR和CRITICAL级别？

python python-3.5 python-hdfs

2021-07-23T07:02:32.563

0 投票

0 回答

12 浏览

python-3.x - 将 zip 压缩到 hdfs

我需要将 zip 存档的内容提取到 hdfs。

我收到一个错误，例如 target_path is not a directory：

那么将文件提取到hdfs的正确方法是什么。

python-3.x python-hdfs

2021-12-07T20:47:43.803

1 2 3 4 5 6 7 8 9 10

问题标签 [python-hdfs]

Reference