我正在使用 python vaex,但我不知道如何在数据框中删除重复的行。例如在 pandas 中存在方法drop_duplicates()
。vaex中是否存在类似的功能?
问问题
538 次
2 回答
1
似乎还没有,但我们应该在某个时候期待这个功能。
与此同时,vaex的创造者也有尝试
于 2021-02-27T18:48:42.690 回答
0
我采用了这种groupby
方法:
import vaex
df = vaex.from_arrays(x=[1, 2, 3, 4, 1, 2, 3, 4],
s=['a', 'b', 'c', 'd', 'A', 'b', 'c', 'D'],
q=[0, 0, 0, 0, 0, 1, 0, 0])
df['new'] = df.x
dfg = df.groupby(['x', 's', 'q']).agg({'new': "sum"})['x', 's', 'q']
dfg
所以基本上你添加某种数字列,然后对原始列进行分组并在新列上求和,然后去掉新的总和;留下原始列的唯一(分组)列表。
于 2021-12-10T16:07:01.510 回答