我有一个可能包含重复项的数据集。为了在数据集中找到重复项,我将索引放入一个 numpy 结构化数组中,对数组进行排序,从唯一值创建另一个数组,然后比较两个数组的长度:
data = np.zeros(t_len, dtype={'names':['date', 'symbol'], 'formats':['i8', 'S16']})
data[:] = [(x['date'], x['symbol']) for x in tbl.iterrows()]
data.sort(order=['date', 'symbol'])
data2 = np.unique(data)
duplicates = False
if len(data) != len(data2):
duplicates = True
print "There are duplicates"
if not duplicates:
print "No duplicates found"
现在,我真正想做的是确定包含重复项的索引。例如,如果我有一个数据集,其中包含:
array([12322323,'IBM'], [12322323,'IBM'], [12322323,'MSFT'], [12322323,'IBM'])
我想知道一个带有 array([12322323,'IBM']) 的数组
我已经研究过使用独特的和差异的功能,但那些似乎没有做这项工作。