目前正在运行一些这样的代码:
df = pd.read_parquet('/tmp/my-file.parquet', engine='pyarrow')
由于文件很大,所以我遇到了内存消耗问题,所以我想调查一下是否fastparquet
可以更好地使用内存。
当我切换引擎时:
df = pd.read_parquet('/tmp/my-file.parquet', engine='fastparquet')
此行现在会引发如下错误:
TypeError: int() argument must be a string, a bytes-like object or a number, not 'NoneType'
我相信这是因为我有一个包含空值的整数字段。我找不到任何说明这不受支持的文档。
关于为什么会发生这种情况或在仍然使用 fastparquet 时如何解决的任何想法?