hash - 记录链接上下文中的文本匿名化

问问题 2018-02-19T09:20:51.140

56 次

我有两个数据集需要链接在一起，因为我必须在一定的误差范围内找到出现在两个数据集中的记录（例如，一个人的名字在其中一个集中拼写错误，一个人搬家、结婚并因此获得了不同的姓氏等）

由于数据是敏感的，因此应该匿名。但是，我不能使用标准的匿名化技术（例如散列），因为这不会保留一些对链接记录至关重要的属性。

因此，我正在寻找一种方法来匿名化我的文本数据，以保留例如 Levenshtein 距离。这种技术存在吗？

0 回答 0