0

这是原型场景:

  1. 我从一组由 FastParquet 编写的 Parquet 文件构造了一个 Dask DataFrame
  2. categorize()在 DataFrame 上运行。相当多的类别成为新的“已知”。
  3. 我通过 FastParquet 将 DataFrame 保存到一个新的 Parquet 文件集

新的 Parquet 文件现在占用的磁盘空间是原来的几倍!现在,我关心的不是磁盘空间——我有足够的空间——而是我寻求理解:

即使原始文件集的类别不是“已知的”,它们仍然必须在文件集的磁盘空间中的某个地方。如果有的话,如果原始文件集的分类列一开始没有使用字典,我可能会预期磁盘使用量会减少。

所以,是的,只是试图理解。是什么赋予了?

4

0 回答 0