我知道我可以使用 pyarrow 连接到 HDFS 集群pyarrow.hdfs.connect()
我也知道我可以使用pyarrow.parquet
's读取镶木地板文件read_table()
但是,read_table()
接受文件路径,而hdfs.connect()
给我一个HadoopFileSystem
实例。
是否可以仅使用 pyarrow(安装了 libhdfs3)来获取驻留在 HDFS 集群中的镶木地板文件/文件夹?我希望得到的是to_pydict()
函数,然后我可以传递数据。