这个选项存在于 Spark 中,我看到 pyarrowwrite_table()接受 **kwargs,但是在跟进之后.pyx,我无法将其追踪到诸如 min/max 之类的东西。
这是否支持,如果支持,它是如何实现的?
pyarrow默认情况下,已经为 Parquet 文件写入了最小/最大统计信息。pyarrow因为底层parquet-cpp库总是写它们,所以没有选择。在撰写本文时,仅写入了 min 和 max。其他统计信息既不能提供也不能用parquet-cpp. 当您需要它们时,您应该在(Py)Arrow 的问题跟踪器中打开一个问题,并考虑为此提供缺失的代码。