要有效地将大型数据集加载到 Polars 中,可以使用惰性 API 和scan_*
函数。这在我们执行聚合时效果很好(所以我们有一个很大的输入数据集但很小的结果)。但是,如果我想完整地处理一个大数据集(例如,更改列的每一行中的值),似乎没有办法使用collect
整个(结果)数据集并将其加载到内存中。
是否可以直接将 LazyFrame 写入磁盘,并让处理按顺序对数据集的块进行操作,以限制内存使用?
要有效地将大型数据集加载到 Polars 中,可以使用惰性 API 和scan_*
函数。这在我们执行聚合时效果很好(所以我们有一个很大的输入数据集但很小的结果)。但是,如果我想完整地处理一个大数据集(例如,更改列的每一行中的值),似乎没有办法使用collect
整个(结果)数据集并将其加载到内存中。
是否可以直接将 LazyFrame 写入磁盘,并让处理按顺序对数据集的块进行操作,以限制内存使用?