这是一个很棒的问题,我认为您为保护企业最有价值资产而采取的积极主动的方法是很多人应该注意的,尤其是在您与同事共享数据的情况下。让人们只看到他们需要看到的东西无疑是减少攻击面的好方法。标准的网络安全方法已经不够用了,许多攻击/人们丢失了带有敏感数据的笔记本电脑/usb 就证明了这一点。毕竟我们只是人类。随着 GDPR 于明年 5 月生效,任何在欧盟拥有客户的公司都必须通过设计来证明隐私,并且已引用掩蔽等匿名技术来证明这一点。
注意:我对这个答案有既得利益,因为我正在开发您正在谈论的此类服务。
我们发现,根据您的具体用例,数据集和内容的大小将取决于您的屏蔽方法。如果您的数据集具有最少的字段并且您知道 PII 在哪里,则可以运行标准查询来替换敏感值。即约翰-> XXXX。如果您想保持一些人类可读性,可以使用Python 的 Faker等库生成基于随机语言环境的 PII,您可以将敏感值替换为。(PHP Faker、Perl Faker 和 Ruby Faker 也存在)。
免责声明:直接屏蔽不能保证完全的隐私。想想有人通过交叉引用带有时间戳的 IMDB 数据从蒙面的 Netflix 数据集中识别个人,或者卫报记者从蒙面的 ISP 数据中识别出法官色情偏好。
随着您的数据集在字段/表中的增加,屏蔽确实变得乏味,并且您可能希望为不同的同事设置不同的访问级别。即数据科学获得轻度匿名的数据,营销获得高度匿名的数据。自由文本字段中的 PII 很烦人,通常要了解攻击者可以用来交叉引用的世界上有哪些可用数据是一项艰巨的任务。
我正在从事的服务旨在通过使用 NLP 技术和对匿名化数学的深入理解来自动化流程来缓解所有这些问题。我们将其捆绑到 Web 服务中,并且渴望在 AWS 市场上推出。所以我很想听听更多关于你的用例的信息,如果你想提前访问,我们目前处于私人测试阶段,所以请告诉我。