0

我正在尝试通过 pyarrows' HdfsClient/连接到 hadoop 集群hdfs.connect()

我注意到 pyarrows 的have_libhdfs3()函数,它返回 False。

如何获得 pyarrow 所需的 hdfs 支持?我知道 libhdfs3 有一个 conda 命令,但我非常需要通过一些不涉及 conda 之类的“香草”方式使其工作。

如果它很重要,我有兴趣阅读的文件是镶木地板文件。

编辑:

库的创建者hdfs3制作了一个允许安装 libhdfs3 的仓库:

http://hdfs3.readthedocs.io/en/latest/install.html

4

2 回答 2

1

除了通过 conda-forge 或从源代码构建之外,我不知道获取 libhdfs3 的方法。您将需conda install libhdfs3=2.2.31要这样做,因为有一个破坏性的 API 更改使 libhdfs3 具有与我们尚未在 Arrow 中解决的 libhdfs 不同的 ABI。请参阅https://issues.apache.org/jira/browse/ARROW-1445(欢迎使用补丁)

于 2017-11-20T21:44:48.393 回答
0

在ubuntu上,这对我有用-

echo "deb https://dl.bintray.com/wangzw/deb trusty contrib" | sudo tee /etc/apt/sources.list.d/bintray-wangzw-deb.list
sudo apt-get install -y apt-transport-https
sudo apt-get update
sudo apt-get install libhdfs3 libhdfs3-dev

它应该也可以使用适当的安装程序在其他 Linux 发行版上运行。摘自:

http://hdfs3.readthedocs.io/en/latest/install.html

于 2017-11-21T16:30:33.367 回答