我有一些包含 [X,Y,Z,Sensor_0,...,Sensor_n] 值的相当大的 hdf 文件(10e9 行,大约 100Gb)。对于处理,我使用的是 vaex,它给了我很好和快速的结果。但是,我正在努力解决以下问题:
我还没有找到一种方法来制作一个新的表达式对象,只用 df 的每 n 行。在熊猫中,我会这样做:df_new_nth_X = df.X[::50] 只获取新df的每50个值,这显然对我的df非常消耗内存。
所以我想“过滤”vaex df,或者在制作一个数组之前制作一个只包含每个第n个值的表达式对象。
这些问题似乎是非常基本的问题,但在阅读文档后我还没有找到解决方案。我什至不确定这对于内存映射对象是否可能......
最好的问候巴斯蒂安