通常我通过使用 hashlib 和使用 .apply(hash) 函数来匿名化我的数据。
现在我尝试一种新方法,想象我必须遵循名为“数据”的 df:
df = pd.DataFrame({'contributor':['eric', 'frank', 'john', 'frank', 'barbara'],
'amount payed':[10,28,49,77,31]})
contributor amount payed
0 eric 10
1 frank 28
2 john 49
3 frank 77
4 barbara 31
我想通过将名称全部变成等来匿名化person1
,person2
如下所示:
output = pd.DataFrame({'contributor':['person1', 'person2', 'person3', 'person2', 'person4'],
'amount payed':[10,28,49,77,31]})
contributor amount payed
0 person1 10
1 person2 28
2 person3 49
3 person2 77
4 person4 31
所以我的第一个想法是总结名称列,以便将名称附加到唯一索引,我可以使用该索引作为“人”之后的数字。