5

我正在使用 python vaex,但我不知道如何在数据框中删除重复的行。例如在 pandas 中存在方法drop_duplicates()。vaex中是否存在类似的功能?

4

2 回答 2

1

似乎还没有,但我们应该在某个时候期待这个功能。

与此同时,vaex的创造者也有尝试

于 2021-02-27T18:48:42.690 回答
0

我采用了这种groupby方法:

import vaex
df = vaex.from_arrays(x=[1, 2, 3, 4, 1, 2, 3, 4],
                      s=['a', 'b', 'c', 'd', 'A', 'b', 'c', 'D'],
                      q=[0, 0, 0, 0, 0, 1, 0, 0])
df['new'] = df.x
dfg = df.groupby(['x', 's', 'q']).agg({'new': "sum"})['x', 's', 'q']
dfg

所以基本上你添加某种数字列,然后对原始列进行分组并在新列上求和,然后去掉新的总和;留下原始列的唯一(分组)列表。

于 2021-12-10T16:07:01.510 回答