问题标签 [pyhdfs-client]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
132 浏览

json - Python HDFS:无法解析 json 文档

我正在关注文档中的简单代码

http://hdfscli.readthedocs.org/en/latest/quickstart.html

路径有效。我明白了

第一行是 的结果print reader。为什么我会收到此错误?有没有其他方法可以从 hdfs 加载 json 对象?我知道该对象是 JSON,因为这就是我将其放入的方式。有没有办法忽略该错误?为什么编码不起作用?

0 投票
4 回答
6062 浏览

hadoop - ConnectionError(MaxRetryError("HTTPConnectionPool 使用 pywebhdfs 重试次数超出上限

嗨,我正在使用 pywebhdfs python lib。我通过调用并尝试在 HDFS 上创建文件来连接 EMR。我正在低于异常,这似乎与我正在执行的操作无关,因为我在这里没有达到任何连接限制。是因为 webhdfs 的工作原理吗

抛出:

requests.exceptions.ConnectionError: HTTPConnectionPool(host='masterDNS', port=50070): Max retries exceeded with url: /webhdfs/v1/user/hadoop/data/myfile.txt?op=CREATE&user.name=hadoop(由NewConnectionError(': 无法建立新连接: [Errno 115] Operation now in progress',))

0 投票
1 回答
136 浏览

python - 如何将瓶子api中的传入文件保存到hdfs

我正在定义bottle需要从客户端接受文件然后将该文件保存到本地系统上的 HDFS 的 api。

代码看起来像这样。

问题是,它request.files.upload.file是一个类型的对象cStringIO.StringO,可以通过方法转换为stra .read()。但是hadoopy.writetb(path, content)期望内容是其他格式,并且服务器坚持这一点。它不会给出异常,也不会给出错误或任何结果。只是站在那里,好像它处于无限循环中。

有谁知道如何将瓶子 api 中的传入文件写入 HDFS?

0 投票
1 回答
1324 浏览

python - Pyhdfs copy_from_local 导致 nodename 或 servname 提供,或未知错误

我正在使用以下 python 代码将文件从本地系统上传到远程 HDFSpyhdfs

使用python3.5/。Hadoop 在默认端口中运行:50070 1.1.1.1 是我的远程 Hadoop url

创建目录“jarvis”工作正常,但复制文件不起作用。我收到以下错误

回溯(最后一次调用):
文件“test_hdfs_upload.py”,第 14 行,在 client.copy_from_local('/tmp/data.json','/test.json')
文件“/Library/Frameworks/Python.framework/ Versions/3.6/lib/python3.6/site-packages/pyhdfs.py”,第 753 行,在 copy_from_local self.create(dest, f, **kwargs)
文件“/Library/Frameworks/Python.framework/Versions/3.6 /lib/python3.6/site-packages/pyhdfs.py”,第 426 行,在创建 metadata_response.headers['location'], data=data, **self._requests_kwargs)
文件“/Library/Frameworks/Python.framework /Versions/3.6/lib/python3.6/site-packages/requests/api.py”,第 99 行,输入返回请求('put',url,data=data,**kwargs)
请求返回 session.request(method=method, url=url, **kwargs)
文件“/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/site-packages/requests/sessions.py”,第 383 行,在请求中 resp = self.send(prep, * *send_kwargs)
文件“/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/site-packages/requests/sessions.py”,第 486 行,发送 r = adapter.send(request, **夸格斯)
文件“/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/site-packages/requests/adapters.py”,第 378 行,在发送中引发 ConnectionError(e) requests.exceptions.ConnectionError: HTTPConnectionPool( host='ip-1-1-1-1', port=50075): 最大重试次数超出 url: /webhdfs/v1/test.json?op=CREATE&user.name=root&namenoderpcaddress=ip-1-1-1- 1:9000&overwrite=false(由:[Errno 8] 节点名或服务名提供,或未知)

0 投票
3 回答
395 浏览

python - 删除元组并创建一个新的排序列表

我有一个使用PySpark创建的RDD ,在通过键值加入后大小约为600 GB,看起来就像这样。

我想要这样的东西并按第一个元素排序:

有没有办法从元组中获取数据并以所需格式获取输出。

注意:这是一个 600 GB 的 RDD,第一列有超过一百万个不同的值,大约。150 亿行,如果可能的话,我真的很感激一种优化的方式。

0 投票
1 回答
1602 浏览

python - 如何在 python 3 中导入“HdfsClient”?

我是 python 新手,我正在尝试连接 Hadoop HDFS 系统。我得到了以下参考代码,我试图实现它,但在导入包时显示错误。

错误:ImportError:无法导入名称“HdfsClient”

我什至尝试使用“ pip ”安装它,但是

找不到满足 HdfsClient 要求的版本(来自版本:)找不到 HdfsClient 的匹配分发

然后我尝试使用“ conda ”,但又一次

收集包元数据:完成解决环境:失败

PackagesNotFoundError:当前频道不提供以下软件包:

  • hdfs客户端

当前频道:

要搜索可能提供您正在寻找的 conda 包的替代频道,请导航至

并使用页面顶部的搜索栏。

实际上我正在尝试使用以下方式连接到 HUE:

IP 地址 -> 192.168.0.119

端口名称 -> 50070

用户名 -> cloudera

密码-> cloudera

但这行不通。任何人都可以建议以更好的方式连接它或如何在 Python 3 中导入“HdfsClient”包。

0 投票
0 回答
1052 浏览

parquet - HDFS(远程文件系统)的 Apache Arrow 连接问题

我想连接 pyarrow 以在 hdfs 中读取和写入镶木地板文件但我面临一些连接问题

我安装了 pyarrow 和 python pandas 现在我正在尝试在远程机器上连接 hdfs

参考链接 - https://towardsdatascience.com/a-gentle-introduction-to-apache-arrow-with-apache-spark-and-pandas-bb19ffe0ddae

错误信息

0 投票
0 回答
72 浏览

apache-spark - Spark:使用数据局部性感知并行化 hdfs URL

我有一个 HDFS zip 文件 URL 列表,我想在 RDD map 函数中打开每个文件,而不是使用 binaryFiles 函数。

最初,我尝试如下:

但后来我意识到这不会提供数据局部性,即使它在集群中并行运行。

有什么方法可以x在 hdfs 文件所在的节点上为文件 url 运行 map 函数x,如何让 spark 知道这个位置。

我想以这种方式读取 zip 文件以在 pyspark 中获得更好的性能,因此我可以避免每个执行程序上的 python 和 java 进程之间的文件序列化和反序列化。

0 投票
1 回答
132 浏览

python - 如何在 pywebhfds 中通过连接错误?

我有一个本地单节点托管的 hadoop。我的名字和datanode是一样的。

我正在尝试使用 python 库创建一个文件。

该文件存在并且 make_dir 正常工作。但是我的创建文件不断抛出错误我得到的异常是:

我已经为 9000 、 9870 和 9864 启用了防火墙。提前致谢。帮助将不胜感激

0 投票
0 回答
266 浏览

python - 如何使用 hdfscli python 库?

我有以下用例,
我想连接一个远程 hadoop 集群。因此,我得到了所有的 hadoop conf 文件(coresite.xml、hdfs-site.xml 等)并将其存储在本地文件系统的一个目录中。我得到了用于 kerberos 身份验证的正确 keytab 和 krb5.conf 文件。我安装了 hadoop 并将解压缩文件放在某个目录下,比如/User/xyz/hadoop. 我设置了以下环境变量: JAVA_HOME(), HADOOP_HOME, HADOOP_CONF_DIR最后将我的 krb5.conf 文件放在/etc/. 此设置帮助我成功地使用kinit -kt <keytab> <principal user>和执行 hadoop 命令(例如hadoop fs -ls /从本地终端)进行身份验证并访问集群。

但是,我想在不下载 hadoop 的情况下执行相同的操作。有办法吗?我正在使用 python 并遇到了这个 hdfs python library。但是,我很难理解和使用这个库。

  1. 我想要达到的目标,有可能吗?
  2. 如果是这样,正确的方法是什么?
  3. 有人可以指导我使用正确的配置设置 hdfscli lib 吗?