我有一个非常大的数据文件需要解析。我编写了一些组函数并使用字典,我能够得到我的小数据集。
但是,更大的数据集不起作用。这是我的数据集在 csv 文件中的样子:
123.0001, 'axis a', 'axis b', 'axis c'
123.0002, 'axis a', 'axis b', 'axis c'
123.0003, 'axis a', 'axis b', 'axis c'
123.0003, 'axis a', 'axis b', 'axis c'
123.0009, 'axis a', 'axis b', 'axis c'
该文件约为 20 GB。我想使用熊猫加载这个文件并按时间分组。123.0001 是纪元时间,有数百个。但是,它们不是线性的。也就是说,他们可能会跳过几秒钟。同一秒内可能还会记录一些不同的事件。甚至是微秒。
假设我想将它们分组为 1 分钟的间隔,并计算设定间隔中有多少。
我将如何使用熊猫来做到这一点?
请注意,我已经使用标准字典和列表在没有熊猫的情况下进行了这项工作。但是,为大型数据集生成结果大约需要 3 个小时。
如果您有更好的解决方案,请告诉我。