抱歉,因为我不知道正确地问这个问题;我所知道的是,每当我尝试使用Python3PyArrow
中的驱动程序列出存储在 HDFS 上的多个文件时,我都会遇到 Segmentation Fault: 11 错误:libhdfs3
Python 3.7.1 | packaged by conda-forge | (default, Nov 13 2018, 10:30:07)
[Clang 4.0.1 (tags/RELEASE_401/final)] :: Anaconda, Inc. on darwin
这是我正在运行的代码:
import pyarrow as pa
fs = pa.hdfs.connect('localhost', 8020, driver='libhdfs3')
这很好地连接到 HDFS,所以我然后运行:
>>> fs.ls("/user/dan/", detail=False)
['/user/dan/testing'] # this directory has 2 files in it
>>> fs.ls("/user/dan/testing", detail=False)
Segmentation fault: 11
有趣的是,如果我删除其中一个文件......
>>> fs.ls("/user/dan/testing", detail=False)
['/user/dan/testing/C5116966@05.json']
...它可以工作并且不会出现段错误。
由于我什至不知道我的环境的哪一部分可能导致这种情况(Python?Pyarrow?libhdfs3?),所以我什至不确定要搜索什么来进行故障排除。
非常感谢任何想法或建议!