一个简单的熊猫问题:
是否有drop_duplicates()
删除复制中涉及的每一行的功能?
一个等效的问题如下:熊猫是否对数据帧有一定的差异?
例如:
In [5]: df1 = pd.DataFrame({'col1':[1,2,3], 'col2':[2,3,4]})
In [6]: df2 = pd.DataFrame({'col1':[4,2,5], 'col2':[6,3,5]})
In [7]: df1
Out[7]:
col1 col2
0 1 2
1 2 3
2 3 4
In [8]: df2
Out[8]:
col1 col2
0 4 6
1 2 3
2 5 5
所以也许类似的东西df2.set_diff(df1)
会产生这个:
col1 col2
0 4 6
2 5 5
但是,我不想依赖索引,因为就我而言,我必须处理具有不同索引的数据帧。
顺便说一句,我最初考虑的是对当前drop_duplicates()
方法的扩展,但现在我意识到使用集合论属性的第二种方法在一般情况下会更有用。不过,这两种方法都解决了我目前的问题。
谢谢!