2

目前正在运行一些这样的代码:

df = pd.read_parquet('/tmp/my-file.parquet', engine='pyarrow')

由于文件很大,所以我遇到了内存消耗问题,所以我想调查一下是否fastparquet可以更好地使用内存。

当我切换引擎时:

df = pd.read_parquet('/tmp/my-file.parquet', engine='fastparquet')

此行现在会引发如下错误:

TypeError: int() argument must be a string, a bytes-like object or a number, not 'NoneType'

我相信这是因为我有一个包含空值的整数字段。我找不到任何说明这不受支持的文档。

关于为什么会发生这种情况或在仍然使用 fastparquet 时如何解决的任何想法?

4

0 回答 0