我正在尝试使用 pyarrow 将 json 文件保存在 HDFS 中。这是我的代码的样子。
from pyarrow import hdfs
fs = hdfs.connect(driver='libhdfs')
with fs.open(outputFileVal1, 'wb') as fp:
json.dump(list(value1set), fp)
这给出了一个错误说TypeError: a bytes-like object is required, not 'str'
当我尝试使用 joblib.dump 或 pickle.dump 时,它可以工作,但不会以 json 格式保存。有没有办法使用pyarrow将json文件直接保存到hdfs。