“pyhdfs-client”的相关标签问题

0 投票

0 回答

132 浏览

json - Python HDFS：无法解析 json 文档

我正在关注文档中的简单代码

http://hdfscli.readthedocs.org/en/latest/quickstart.html

路径有效。我明白了

第一行是的结果print reader。为什么我会收到此错误？有没有其他方法可以从 hdfs 加载 json 对象？我知道该对象是 JSON，因为这就是我将其放入的方式。有没有办法忽略该错误？为什么编码不起作用？

2016-02-04T19:41:00.113

0 投票

4 回答

6062 浏览

hadoop - ConnectionError(MaxRetryError("HTTPConnectionPool 使用 pywebhdfs 重试次数超出上限

嗨，我正在使用 pywebhdfs python lib。我通过调用并尝试在 HDFS 上创建文件来连接 EMR。我正在低于异常，这似乎与我正在执行的操作无关，因为我在这里没有达到任何连接限制。是因为 webhdfs 的工作原理吗

抛出：

requests.exceptions.ConnectionError: HTTPConnectionPool(host='masterDNS', port=50070): Max retries exceeded with url: /webhdfs/v1/user/hadoop/data/myfile.txt?op=CREATE&user.name=hadoop（由NewConnectionError(': 无法建立新连接: [Errno 115] Operation now in progress',))

hadoop webhdfs pyhdfs-client

2016-03-04T09:58:46.570

0 投票

1 回答

136 浏览

python - 如何将瓶子api中的传入文件保存到hdfs

我正在定义bottle需要从客户端接受文件然后将该文件保存到本地系统上的 HDFS 的 api。

代码看起来像这样。

问题是，它request.files.upload.file是一个类型的对象cStringIO.StringO，可以通过方法转换为stra .read()。但是hadoopy.writetb(path, content)期望内容是其他格式，并且服务器坚持这一点。它不会给出异常，也不会给出错误或任何结果。只是站在那里，好像它处于无限循环中。

有谁知道如何将瓶子 api 中的传入文件写入 HDFS？

python hadoop hdfs bottle pyhdfs-client

2017-09-08T21:34:36.977

0 投票

1 回答

1324 浏览

python - Pyhdfs copy_from_local 导致 nodename 或 servname 提供，或未知错误

我正在使用以下 python 代码将文件从本地系统上传到远程 HDFSpyhdfs

使用python3.5/。Hadoop 在默认端口中运行：50070 1.1.1.1 是我的远程 Hadoop url

创建目录“jarvis”工作正常，但复制文件不起作用。我收到以下错误

回溯（最后一次调用）：
文件“test_hdfs_upload.py”，第 14 行，在 client.copy_from_local('/tmp/data.json','/test.json')
文件“/Library/Frameworks/Python.framework/ Versions/3.6/lib/python3.6/site-packages/pyhdfs.py”，第 753 行，在 copy_from_local self.create(dest, f, **kwargs)
文件“/Library/Frameworks/Python.framework/Versions/3.6 /lib/python3.6/site-packages/pyhdfs.py”，第 426 行，在创建 metadata_response.headers['location'], data=data, **self._requests_kwargs)
文件“/Library/Frameworks/Python.framework /Versions/3.6/lib/python3.6/site-packages/requests/api.py”，第 99 行，输入返回请求（'put'，url，data=data，**kwargs）
请求返回 session.request(method=method, url=url, **kwargs)
文件“/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/site-packages/requests/sessions.py”，第 383 行，在请求中 resp = self.send(prep, * *send_kwargs)
文件“/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/site-packages/requests/sessions.py”，第 486 行，发送 r = adapter.send(request, **夸格斯）
文件“/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/site-packages/requests/adapters.py”，第 378 行，在发送中引发 ConnectionError(e) requests.exceptions.ConnectionError: HTTPConnectionPool( host='ip-1-1-1-1', port=50075): 最大重试次数超出 url: /webhdfs/v1/test.json?op=CREATE&user.name=root&namenoderpcaddress=ip-1-1-1- 1:9000&overwrite=false（由：[Errno 8] 节点名或服务名提供，或未知）

python hadoop hdfs webhdfs pyhdfs-client

2017-12-14T11:44:08.557

0 投票

3 回答

395 浏览

python - 删除元组并创建一个新的排序列表

我有一个使用PySpark创建的RDD ，在通过键值加入后大小约为600 GB，看起来就像这样。

我想要这样的东西并按第一个元素排序：

有没有办法从元组中获取数据并以所需格式获取输出。

注意：这是一个 600 GB 的 RDD，第一列有超过一百万个不同的值，大约。150 亿行，如果可能的话，我真的很感激一种优化的方式。

python pyspark tuples spark-dataframe pyhdfs-client

2018-04-27T02:39:33.060

0 投票

1 回答

1602 浏览

python - 如何在 python 3 中导入“HdfsClient”？

我是 python 新手，我正在尝试连接 Hadoop HDFS 系统。我得到了以下参考代码，我试图实现它，但在导入包时显示错误。

错误：ImportError：无法导入名称“HdfsClient”

我什至尝试使用“ pip ”安装它，但是

找不到满足 HdfsClient 要求的版本（来自版本：）找不到 HdfsClient 的匹配分发

然后我尝试使用“ conda ”，但又一次

收集包元数据：完成解决环境：失败

PackagesNotFoundError：当前频道不提供以下软件包：

hdfs客户端

当前频道：

https://repo.anaconda.com/pkgs/main/win-64

https://repo.anaconda.com/pkgs/main/noarch

https://repo.anaconda.com/pkgs/free/win-64

https://repo.anaconda.com/pkgs/free/noarch

https://repo.anaconda.com/pkgs/r/win-64

https://repo.anaconda.com/pkgs/r/noarch

https://repo.anaconda.com/pkgs/msys2/win-64

https://repo.anaconda.com/pkgs/msys2/noarch

要搜索可能提供您正在寻找的 conda 包的替代频道，请导航至

并使用页面顶部的搜索栏。

实际上我正在尝试使用以下方式连接到 HUE：

IP 地址 -> 192.168.0.119

端口名称 -> 50070

用户名 -> cloudera

密码-> cloudera

但这行不通。任何人都可以建议以更好的方式连接它或如何在 Python 3 中导入“HdfsClient”包。

python python-3.x hadoop anaconda pyhdfs-client

2019-04-03T07:01:29.030

0 投票

0 回答

1052 浏览

parquet - HDFS（远程文件系统）的 Apache Arrow 连接问题

我想连接 pyarrow 以在 hdfs 中读取和写入镶木地板文件但我面临一些连接问题

我安装了 pyarrow 和 python pandas 现在我正在尝试在远程机器上连接 hdfs

参考链接 - https://towardsdatascience.com/a-gentle-introduction-to-apache-arrow-with-apache-spark-and-pandas-bb19ffe0ddae

错误信息

parquet pyarrow apache-arrow pyhdfs-client

2019-05-20T09:43:49.417

0 投票

0 回答

72 浏览

apache-spark - Spark：使用数据局部性感知并行化 hdfs URL

我有一个 HDFS zip 文件 URL 列表，我想在 RDD map 函数中打开每个文件，而不是使用 binaryFiles 函数。

最初，我尝试如下：

但后来我意识到这不会提供数据局部性，即使它在集群中并行运行。

有什么方法可以x在 hdfs 文件所在的节点上为文件 url 运行 map 函数x，如何让 spark 知道这个位置。

我想以这种方式读取 zip 文件以在 pyspark 中获得更好的性能，因此我可以避免每个执行程序上的 python 和 java 进程之间的文件序列化和反序列化。

apache-spark pyspark pyhdfs-client

2019-11-06T22:27:15.290

0 投票

1 回答

132 浏览

python - 如何在 pywebhfds 中通过连接错误？

我有一个本地单节点托管的 hadoop。我的名字和datanode是一样的。

我正在尝试使用 python 库创建一个文件。

该文件存在并且 make_dir 正常工作。但是我的创建文件不断抛出错误我得到的异常是：

我已经为 9000 、 9870 和 9864 启用了防火墙。提前致谢。帮助将不胜感激

python hadoop webhdfs pyhdfs-client python-hdfs

2020-08-03T10:38:13.157

0 投票

0 回答

266 浏览

python - 如何使用 hdfscli python 库？

我有以下用例，
我想连接一个远程 hadoop 集群。因此，我得到了所有的 hadoop conf 文件（coresite.xml、hdfs-site.xml 等）并将其存储在本地文件系统的一个目录中。我得到了用于 kerberos 身份验证的正确 keytab 和 krb5.conf 文件。我安装了 hadoop 并将解压缩文件放在某个目录下，比如/User/xyz/hadoop. 我设置了以下环境变量： JAVA_HOME(), HADOOP_HOME, HADOOP_CONF_DIR最后将我的 krb5.conf 文件放在/etc/. 此设置帮助我成功地使用kinit -kt <keytab> <principal user>和执行 hadoop 命令（例如hadoop fs -ls /从本地终端）进行身份验证并访问集群。

但是，我想在不下载 hadoop 的情况下执行相同的操作。有办法吗？我正在使用 python 并遇到了这个 hdfs python library。但是，我很难理解和使用这个库。

我想要达到的目标，有可能吗？
如果是这样，正确的方法是什么？
有人可以指导我使用正确的配置设置 hdfscli lib 吗？

python hadoop webhdfs pyhdfs-client python-hdfs

2021-02-10T00:52:07.610

问题标签 [pyhdfs-client]

Reference