2

通常我通过使用 hashlib 和使用 .apply(hash) 函数来匿名化我的数据。

现在我尝试一种新方法,想象我必须遵循名为“数据”的 df:

df = pd.DataFrame({'contributor':['eric', 'frank', 'john', 'frank', 'barbara'],
                   'amount payed':[10,28,49,77,31]})

  contributor  amount payed
0        eric            10
1       frank            28
2        john            49
3       frank            77
4     barbara            31

我想通过将名称全部变成等来匿名化person1person2如下所示:

output = pd.DataFrame({'contributor':['person1', 'person2', 'person3', 'person2', 'person4'],
                       'amount payed':[10,28,49,77,31]})

  contributor  amount payed
0     person1            10
1     person2            28
2     person3            49
3     person2            77
4     person4            31

所以我的第一个想法是总结名称列,以便将名称附加到唯一索引,我可以使用该索引作为“人”之后的数字。

4

3 回答 3

7

我认为更快的解决方案是factorize用于唯一值,添加1、转换为Seriesstrings 并添加Person字符串:

df['contributor'] = 'Person' + pd.Series(pd.factorize(df['contributor'])[0] + 1).astype(str)
print (df)
  contributor  amount payed
0     Person1            10
1     Person2            28
2     Person3            49
3     Person2            77
4     Person4            31
于 2018-03-16T13:03:19.630 回答
0

也许尝试为此操作创建一个名为“索引”的数据框并name在其中保留唯一值?

然后生成具有唯一名称索引的掩码,并将生成的数据框indexdata.

index = pd.DataFrame()
index['name'] = df['name'].unique()
index['mask'] = index['name'].apply(lambda x : 'person' + 
str(index[index.name == x].index[0] + 1))

data.merge(index, how='left')[['mask', 'amount']]
于 2018-03-15T22:14:38.937 回答
0
labels, uniques =  pd.factorize(df['name'])
labels = ['person_'+str(l) for l in labels]
df['contributor_anonymized'] = labels
于 2018-12-13T18:51:26.167 回答