python - Vaex 数据框和表达式：每第 n 行过滤一次（Python）

Question

我有一些包含 [X,Y,Z,Sensor_0,...,Sensor_n] 值的相当大的 hdf 文件（10e9 行，大约 100Gb）。对于处理，我使用的是 vaex，它给了我很好和快速的结果。但是，我正在努力解决以下问题：

我还没有找到一种方法来制作一个新的表达式对象，只用 df 的每 n 行。在熊猫中，我会这样做：df_new_nth_X = df.X[::50] 只获取新df的每50个值，这显然对我的df非常消耗内存。

所以我想“过滤”vaex df，或者在制作一个数组之前制作一个只包含每个第n个值的表达式对象。

这些问题似乎是非常基本的问题，但在阅读文档后我还没有找到解决方案。我什至不确定这对于内存映射对象是否可能......

最好的问候巴斯蒂安

score 1 · Accepted Answer

你可以做一个很好的技巧来实现你想要的。考虑以下代码：

import vaex

# Example df that comes with vaex
df = vaex.example()

# Add a virtual index (takes no memory)
df['index'] = vaex.vrange(len(df))

# Make a filter / selection based on that index
# So getting one every 50 rows for example you can do
df[df.index % 50 == 0]['FeH'].values

python - Vaex 数据框和表达式：每第 n 行过滤一次（Python）

1 回答 1

Related

Reference