0

使用 fastparquet 从 S3 读取文件时,我得到无统计信息(最小值/最大值)。打电话时

fp.ParquetFile(fn=path, open_with=myopen).statistics['min']

大多数值是无,并且一些值是有效的。

但是,当我使用其他框架读取相同的文件时,我能够获得所有值的正确最小值/最大值。

我怎样才能得到所有的统计数据?谢谢

4

1 回答 1

1

完整的行组集作为列表提供

pf = fp.ParquetFile(fn=path, open_with=myopen)
pf.row_groups

并且每个行组都有一个.columns属性,该属性又具有meta_data; 因此您可以四处挖掘以查看列的各个最小/最大值是什么。

于 2020-09-22T14:56:35.233 回答