我正在努力寻找如何在 Spark API 中指定 parquet 文件编写器的行组大小。
我找到了一种方法来做到这一点,即使用具有此选项的快速镶木地板 python 模块:
从 fastparquet 导入写入
write 有参数:row_group_offsets
另外, row_group size 的最佳数字是多少?
感谢快速镶木地板,我做了一些实验。例如,选择 100 万的 row_groupsize 比 10 000 快十倍。但是如果我选择超过 100 万个,它就会开始减慢我的简单查询速度。
预先感谢您的帮助