我正在使用 python 和 pyarrow 库,我想在 HDFS 上编写一个 pandas 数据框。这是我的代码
import pandas as pd
import pyarrow as pa
fs = pa.hdfs.connect(namenode, port, username, kerb_ticket)
df = pd.DataFrame(...)
table = pa.Table.from_pandas(df)
根据文档,我应该使用以下代码在 HDFS 上编写 pyarrow.Table
import pyarrow.parquet as pq
pq.write_parquet(table, 'filename.parquet')
我不明白我应该在哪里使用我的连接(fs
),因为如果我不使用它,write_parquet
那么它怎么知道 HDFS 在哪里?