1

抱歉,因为我不知道正确地问这个问题;我所知道的是,每当我尝试使用Python3PyArrow中的驱动程序列出存储在 HDFS 上的多个文件时,我都会遇到 Segmentation Fault: 11 错误:libhdfs3

Python 3.7.1 | packaged by conda-forge | (default, Nov 13 2018, 10:30:07) 
[Clang 4.0.1 (tags/RELEASE_401/final)] :: Anaconda, Inc. on darwin

这是我正在运行的代码:

import pyarrow as pa
fs = pa.hdfs.connect('localhost', 8020, driver='libhdfs3')

这很好地连接到 HDFS,所以我然后运行:

>>> fs.ls("/user/dan/", detail=False)
['/user/dan/testing'] # this directory has 2 files in it

>>> fs.ls("/user/dan/testing", detail=False)
Segmentation fault: 11

有趣的是,如果我删除其中一个文件......

>>> fs.ls("/user/dan/testing", detail=False)
['/user/dan/testing/C5116966@05.json']

...它可以工作并且不会出现段错误。

由于我什至不知道我的环境的哪一部分可能导致这种情况(Python?Pyarrow?libhdfs3?),所以我什至不确定要搜索什么来进行故障排除。

非常感谢任何想法或建议!

4

0 回答 0