python - 无法使用 fastparquet 读取镶木地板文件，但可以使用 pyarrow - 可为空的整数

问问题 2019-06-04T14:58:15.857

576 次

目前正在运行一些这样的代码：

df = pd.read_parquet('/tmp/my-file.parquet', engine='pyarrow')

由于文件很大，所以我遇到了内存消耗问题，所以我想调查一下是否fastparquet可以更好地使用内存。

当我切换引擎时：

df = pd.read_parquet('/tmp/my-file.parquet', engine='fastparquet')

此行现在会引发如下错误：

TypeError: int() argument must be a string, a bytes-like object or a number, not 'NoneType'

我相信这是因为我有一个包含空值的整数字段。我找不到任何说明这不受支持的文档。

关于为什么会发生这种情况或在仍然使用 fastparquet 时如何解决的任何想法？

0 回答 0