1

这个选项存在于 Spark 中,我看到 pyarrowwrite_table()接受 **kwargs,但是在跟进之后.pyx,我无法将其追踪到诸如 min/max 之类的东西。

这是否支持,如果支持,它是如何实现的?

4

1 回答 1

1

pyarrow默认情况下,已经为 Parquet 文件写入了最小/最大统计信息。pyarrow因为底层parquet-cpp库总是写它们,所以没有选择。在撰写本文时,仅写入了 min 和 max。其他统计信息既不能提供也不能用parquet-cpp. 当您需要它们时,您应该在(Py)Arrow 的问题跟踪器中打开一个问题,并考虑为此提供缺失的代码。

于 2018-09-30T09:08:20.347 回答