这个选项存在于 Spark 中,我看到 pyarrowwrite_table()
接受 **kwargs,但是在跟进之后.pyx
,我无法将其追踪到诸如 min/max 之类的东西。
这是否支持,如果支持,它是如何实现的?
pyarrow
默认情况下,已经为 Parquet 文件写入了最小/最大统计信息。pyarrow
因为底层parquet-cpp
库总是写它们,所以没有选择。在撰写本文时,仅写入了 min 和 max。其他统计信息既不能提供也不能用parquet-cpp
. 当您需要它们时,您应该在(Py)Arrow 的问题跟踪器中打开一个问题,并考虑为此提供缺失的代码。