我有两个数据集需要链接在一起,因为我必须在一定的误差范围内找到出现在两个数据集中的记录(例如,一个人的名字在其中一个集中拼写错误,一个人搬家、结婚并因此获得了不同的姓氏等)
由于数据是敏感的,因此应该匿名。但是,我不能使用标准的匿名化技术(例如散列),因为这不会保留一些对链接记录至关重要的属性。
因此,我正在寻找一种方法来匿名化我的文本数据,以保留例如 Levenshtein 距离。这种技术存在吗?
我有两个数据集需要链接在一起,因为我必须在一定的误差范围内找到出现在两个数据集中的记录(例如,一个人的名字在其中一个集中拼写错误,一个人搬家、结婚并因此获得了不同的姓氏等)
由于数据是敏感的,因此应该匿名。但是,我不能使用标准的匿名化技术(例如散列),因为这不会保留一些对链接记录至关重要的属性。
因此,我正在寻找一种方法来匿名化我的文本数据,以保留例如 Levenshtein 距离。这种技术存在吗?