data-masking - AWS RDS 中数据的数据屏蔽

Question

我有一个 AWS RDS (AuroraDB)，我想屏蔽数据库上的数据。亚马逊是否提供任何数据屏蔽服务？

我见过 RDS 加密，但我正在寻找数据屏蔽，因为数据库包含敏感数据。所以我想知道他们是否为数据屏蔽提供任何服务，或者是否有任何其他工具可用于屏蔽数据并将其手动添加到数据库中？

如果有我的情况，最感谢可用于数据屏蔽的工具列表。因为我需要屏蔽这些数据以进行测试，因为原始数据库包含 PII（个人身份信息）等敏感信息。我还必须将这些数据传输给我的同事，因此我认为数据屏蔽是一个重要因素。

谢谢。

score 2 · Accepted Answer

这是一个很棒的问题，我认为您为保护企业最有价值资产而采取的积极主动的方法是很多人应该注意的，尤其是在您与同事共享数据的情况下。让人们只看到他们需要看到的东西无疑是减少攻击面的好方法。标准的网络安全方法已经不够用了，许多攻击/人们丢失了带有敏感数据的笔记本电脑/usb 就证明了这一点。毕竟我们只是人类。随着 GDPR 于明年 5 月生效，任何在欧盟拥有客户的公司都必须通过设计来证明隐私，并且已引用掩蔽等匿名技术来证明这一点。

注意：我对这个答案有既得利益，因为我正在开发您正在谈论的此类服务。

我们发现，根据您的具体用例，数据集和内容的大小将取决于您的屏蔽方法。如果您的数据集具有最少的字段并且您知道 PII 在哪里，则可以运行标准查询来替换敏感值。即约翰-> XXXX。如果您想保持一些人类可读性，可以使用Python 的 Faker等库生成基于随机语言环境的 PII，您可以将敏感值替换为。（PHP Faker、Perl Faker 和 Ruby Faker 也存在）。

免责声明：直接屏蔽不能保证完全的隐私。想想有人通过交叉引用带有时间戳的 IMDB 数据从蒙面的 Netflix 数据集中识别个人，或者卫报记者从蒙面的 ISP 数据中识别出法官色情偏好。

随着您的数据集在字段/表中的增加，屏蔽确实变得乏味，并且您可能希望为不同的同事设置不同的访问级别。即数据科学获得轻度匿名的数据，营销获得高度匿名的数据。自由文本字段中的 PII 很烦人，通常要了解攻击者可以用来交叉引用的世界上有哪些可用数据是一项艰巨的任务。

我正在从事的服务旨在通过使用 NLP 技术和对匿名化数学的深入理解来自动化流程来缓解所有这些问题。我们将其捆绑到 Web 服务中，并且渴望在 AWS 市场上推出。所以我很想听听更多关于你的用例的信息，如果你想提前访问，我们目前处于私人测试阶段，所以请告诉我。

score 0 · Accepted Answer

如果您使用 CSV 或 JSON 文件导出或导入数据（即与您的同事共享），那么您可以使用FileMasker。它可以作为 AWS Lamdbda 函数运行，在 S3 上读取/写入 CSV/JSON 文件。它仍在开发中，但如果您现在想尝试测试版，请联系我。免责声明：我为 FileMasker 的开发者 DataVeil 工作。

data-masking - AWS RDS 中数据的数据屏蔽

2 回答 2

Related

Reference