问题标签 [pyhdfs-client]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
json - Python HDFS:无法解析 json 文档
我正在关注文档中的简单代码
http://hdfscli.readthedocs.org/en/latest/quickstart.html
路径有效。我明白了
第一行是 的结果print reader
。为什么我会收到此错误?有没有其他方法可以从 hdfs 加载 json 对象?我知道该对象是 JSON,因为这就是我将其放入的方式。有没有办法忽略该错误?为什么编码不起作用?
hadoop - ConnectionError(MaxRetryError("HTTPConnectionPool 使用 pywebhdfs 重试次数超出上限
嗨,我正在使用 pywebhdfs python lib。我通过调用并尝试在 HDFS 上创建文件来连接 EMR。我正在低于异常,这似乎与我正在执行的操作无关,因为我在这里没有达到任何连接限制。是因为 webhdfs 的工作原理吗
抛出:
requests.exceptions.ConnectionError: HTTPConnectionPool(host='masterDNS', port=50070): Max retries exceeded with url: /webhdfs/v1/user/hadoop/data/myfile.txt?op=CREATE&user.name=hadoop(由NewConnectionError(': 无法建立新连接: [Errno 115] Operation now in progress',))
python - 如何将瓶子api中的传入文件保存到hdfs
我正在定义bottle
需要从客户端接受文件然后将该文件保存到本地系统上的 HDFS 的 api。
代码看起来像这样。
问题是,它request.files.upload.file
是一个类型的对象cStringIO.StringO
,可以通过方法转换为str
a .read()
。但是hadoopy.writetb(path, content)
期望内容是其他格式,并且服务器坚持这一点。它不会给出异常,也不会给出错误或任何结果。只是站在那里,好像它处于无限循环中。
有谁知道如何将瓶子 api 中的传入文件写入 HDFS?
python - Pyhdfs copy_from_local 导致 nodename 或 servname 提供,或未知错误
我正在使用以下 python 代码将文件从本地系统上传到远程 HDFSpyhdfs
使用python3.5/。Hadoop 在默认端口中运行:50070 1.1.1.1 是我的远程 Hadoop url
创建目录“jarvis”工作正常,但复制文件不起作用。我收到以下错误
回溯(最后一次调用):
文件“test_hdfs_upload.py”,第 14 行,在 client.copy_from_local('/tmp/data.json','/test.json')
文件“/Library/Frameworks/Python.framework/ Versions/3.6/lib/python3.6/site-packages/pyhdfs.py”,第 753 行,在 copy_from_local self.create(dest, f, **kwargs)
文件“/Library/Frameworks/Python.framework/Versions/3.6 /lib/python3.6/site-packages/pyhdfs.py”,第 426 行,在创建 metadata_response.headers['location'], data=data, **self._requests_kwargs)
文件“/Library/Frameworks/Python.framework /Versions/3.6/lib/python3.6/site-packages/requests/api.py”,第 99 行,输入返回请求('put',url,data=data,**kwargs)
请求返回 session.request(method=method, url=url, **kwargs)
文件“/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/site-packages/requests/sessions.py”,第 383 行,在请求中 resp = self.send(prep, * *send_kwargs)
文件“/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/site-packages/requests/sessions.py”,第 486 行,发送 r = adapter.send(request, **夸格斯)
文件“/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/site-packages/requests/adapters.py”,第 378 行,在发送中引发 ConnectionError(e) requests.exceptions.ConnectionError: HTTPConnectionPool( host='ip-1-1-1-1', port=50075): 最大重试次数超出 url: /webhdfs/v1/test.json?op=CREATE&user.name=root&namenoderpcaddress=ip-1-1-1- 1:9000&overwrite=false(由:[Errno 8] 节点名或服务名提供,或未知)
python - 删除元组并创建一个新的排序列表
我有一个使用PySpark创建的RDD ,在通过键值加入后大小约为600 GB,看起来就像这样。
我想要这样的东西并按第一个元素排序:
有没有办法从元组中获取数据并以所需格式获取输出。
注意:这是一个 600 GB 的 RDD,第一列有超过一百万个不同的值,大约。150 亿行,如果可能的话,我真的很感激一种优化的方式。
python - 如何在 python 3 中导入“HdfsClient”?
我是 python 新手,我正在尝试连接 Hadoop HDFS 系统。我得到了以下参考代码,我试图实现它,但在导入包时显示错误。
错误:ImportError:无法导入名称“HdfsClient”
我什至尝试使用“ pip ”安装它,但是
找不到满足 HdfsClient 要求的版本(来自版本:)找不到 HdfsClient 的匹配分发
然后我尝试使用“ conda ”,但又一次
收集包元数据:完成解决环境:失败
PackagesNotFoundError:当前频道不提供以下软件包:
- hdfs客户端
当前频道:
- https://repo.anaconda.com/pkgs/main/win-64
- https://repo.anaconda.com/pkgs/main/noarch
- https://repo.anaconda.com/pkgs/free/win-64
- https://repo.anaconda.com/pkgs/free/noarch
- https://repo.anaconda.com/pkgs/r/win-64
- https://repo.anaconda.com/pkgs/r/noarch
- https://repo.anaconda.com/pkgs/msys2/win-64
- https://repo.anaconda.com/pkgs/msys2/noarch
要搜索可能提供您正在寻找的 conda 包的替代频道,请导航至
并使用页面顶部的搜索栏。
实际上我正在尝试使用以下方式连接到 HUE:
IP 地址 -> 192.168.0.119
端口名称 -> 50070
用户名 -> cloudera
密码-> cloudera
但这行不通。任何人都可以建议以更好的方式连接它或如何在 Python 3 中导入“HdfsClient”包。
parquet - HDFS(远程文件系统)的 Apache Arrow 连接问题
我想连接 pyarrow 以在 hdfs 中读取和写入镶木地板文件但我面临一些连接问题
我安装了 pyarrow 和 python pandas 现在我正在尝试在远程机器上连接 hdfs
错误信息
apache-spark - Spark:使用数据局部性感知并行化 hdfs URL
我有一个 HDFS zip 文件 URL 列表,我想在 RDD map 函数中打开每个文件,而不是使用 binaryFiles 函数。
最初,我尝试如下:
但后来我意识到这不会提供数据局部性,即使它在集群中并行运行。
有什么方法可以x
在 hdfs 文件所在的节点上为文件 url 运行 map 函数x
,如何让 spark 知道这个位置。
我想以这种方式读取 zip 文件以在 pyspark 中获得更好的性能,因此我可以避免每个执行程序上的 python 和 java 进程之间的文件序列化和反序列化。
python - 如何在 pywebhfds 中通过连接错误?
我有一个本地单节点托管的 hadoop。我的名字和datanode是一样的。
我正在尝试使用 python 库创建一个文件。
该文件存在并且 make_dir 正常工作。但是我的创建文件不断抛出错误我得到的异常是:
我已经为 9000 、 9870 和 9864 启用了防火墙。提前致谢。帮助将不胜感激
python - 如何使用 hdfscli python 库?
我有以下用例,
我想连接一个远程 hadoop 集群。因此,我得到了所有的 hadoop conf 文件(coresite.xml、hdfs-site.xml 等)并将其存储在本地文件系统的一个目录中。我得到了用于 kerberos 身份验证的正确 keytab 和 krb5.conf 文件。我安装了 hadoop 并将解压缩文件放在某个目录下,比如/User/xyz/hadoop
. 我设置了以下环境变量:
JAVA_HOME(), HADOOP_HOME, HADOOP_CONF_DIR
最后将我的 krb5.conf 文件放在/etc/
. 此设置帮助我成功地使用kinit -kt <keytab> <principal user>
和执行 hadoop 命令(例如hadoop fs -ls /
从本地终端)进行身份验证并访问集群。
但是,我想在不下载 hadoop 的情况下执行相同的操作。有办法吗?我正在使用 python 并遇到了这个 hdfs python library。但是,我很难理解和使用这个库。
- 我想要达到的目标,有可能吗?
- 如果是这样,正确的方法是什么?
- 有人可以指导我使用正确的配置设置 hdfscli lib 吗?