1

我有一个大型数据集(>100M 行),我已将其放入 HDF 存储中,以便使用 Pandas 进行分析。它太大了,无法全部容纳在内存中。我希望能够setup在数据集的字段中选择具有最大或最小日期时间值的行。

所以,类似于

df.ix[df['setup'].idxmax()]

如果整个数据集都在内存中。有什么建议么?

4

0 回答 0