我必须分两步将 JSON 中的分析数据转换为镶木地板。对于大量现有数据,我正在编写 PySpark 作业并做
df.repartition(*partitionby).write.partitionBy(partitionby).
mode("append").parquet(output,compression=codec)
但是对于增量数据,我计划使用 AWS Lambda。可能 PySpark 对它来说太过分了,因此我计划使用 PyArrow (我知道它不必要地涉及 Pandas,但我找不到更好的选择)。所以,基本上:
import pyarrow.parquet as pq
pq.write_table(table, outputPath, compression='snappy',
use_deprecated_int96_timestamps=True)
我想知道 PySpark 和 PyArrow 编写的 Parquet 文件是否兼容(相对于 Athena)?