“anonymize”的相关标签问题

0 投票

1 回答

126 浏览

r - 如何确定导致 R 函数抖动的原因？

我写了一个函数来匿名化数据框中给定一些键的名称，一旦它匿名化很多名称，它就会爬行，但我不明白为什么。

有问题的数据框是一组通过 Twitter API 收集的 4733 条推文，其中每行是一条包含 32 列数据的推文。无论名称出现在哪一行，这些名称都将被匿名化，因此我不想将函数限制为仅查看这 32 列中的几列。

关键是一个包含 211121 对真实姓名和虚假姓名的数据帧，真实姓名和虚假姓名在数据帧中都是唯一的。在匿名化大约 100k 个名称后，该功能会大大减慢。

该函数如下所示：

这里有什么明显的东西会导致速度变慢吗？我完全没有优化代码以提高速度的经验。

编辑1：

以下是要匿名的数据框中的几行。

这是关键的几行。

编辑2：

我已将 DF 简化为仅需要匿名化的两列，这使事情变得更快，但在完成了大约 155k 的名称后它仍然会退出。

根据评论中的要求，这dput()是要匿名的 DF 前三行的输出。

这dput()是密钥的前三行。

2021-04-20T15:26:13.323

0 投票

2 回答

46 浏览

python - 如何在 python 中四舍五入 n 个组？

我正在研究一种创建匿名数据的方法。因此，我想对我的数据进行某种舍入。但这应该发生在具有相同范围的 n 组中。最小组应该是 min(a) 并从那里开始 n 步到 max(a)-diff(max(a),min(a))/n

示例 1：

示例 2：

python grouping rounding chunks anonymize

2021-05-07T13:35:22.903

0 投票

0 回答

23 浏览

postgresql - Postgres 对特定数据进行匿名/随机化所有具有数据域的数据

我试图弄清楚如何在 Postgres 中以最佳方式“匿名化”数据。

假设为数据库中的每个项目都创建了模式。在模式中，项目完成后可能会有需要随机化/删除/匿名的列。

我正在考虑创建新域以用于可能包含敏感数据的所有列，并且在项目完成后只需运行小脚本即可。

我提出了一些遵循这个逻辑的小解决方案

我的问题是。有没有人遇到过类似的问题，有没有更简单的方法可以在 Postgres 中实现这个结果？

postgresql anonymize

2021-05-11T15:20:54.863

0 投票

0 回答

169 浏览

sql-server - 在 MS SQL 中匿名销售和其他数据

我需要对我们生产服务器中的一些数据进行匿名化处理，以便我可以查看这些数据以获取更多商机。例如，我使用 Adventureworks 数据库。

假设我有下表中的数据，我必须将其全部匿名。

最好有正确形式的名称，而不是像 Axpsr Raqnclo 这样的胡言乱语。帐户 ID 可以是任何数字或数字和字母的组合。

对此有什么好的解决方案或一些工具吗？我知道对于帐户 ID，我可以使用RAND()SQL 中的函数，但不知道如何做其余的事情。我将 SQL Server 与 SSIS 和 SSAS 一起使用。

请问有什么想法吗？

sql-server ssas anonymize

2021-05-20T09:21:35.897

0 投票

1 回答

43 浏览

scala - 通过在数据帧 Spark Scala 中将其替换为可发音的英文单词来匿名化 first_name、last_name 和 full_name 列

我正在尝试用人类可读的替换来匿名化生产数据——这不仅会掩盖实际数据，还会给它一个可调用的身份以供识别。请帮助我了解如何在 Scala 中使用其他可发音的英文单词匿名化数据框列，如名字、姓氏、全名：

它必须将一个真实世界名称转换为另一个可发音和可识别的真实世界名称。
必须可以分别转换名字、姓氏和全名，使得全名=名字和姓氏之间用空格隔开。
它应该在每次迭代中为名称生成相同的匿名化名称。
目标数据集将有超过一百万条不同的记录。

我曾尝试遍历名词和形容词词典以达到两个可发音单词的组合，但它不会给我一百万个不同的组合。下面的代码：

scala apache-spark-sql data-masking anonymize

2021-06-23T05:17:42.307

0 投票

1 回答

13 浏览

dataset - 匿名化 rdbms 数据，保持关键关系

是否有一种“即用型”方法来匿名数据，但保持键之间的关系？例如，我有：

表格1

用户代码	邮政编码
ztxp15	45789

和：

表#2

用户代码	订购日期
ztxp15	2021-06-27 06:22pm

我希望它匿名为：

用户代码	邮政编码
xvdf65	32165

和：

表#2

用户代码	订购日期
xvdf65	2021-06-27 06:22pm

这将需要：一个双射函数，用于转换数据，保持其格式 ([az]{4}[0-9]{2})，生成相同的值，例如根据密码。这样，将保持唯一性，格式等。但也许我错过了一些东西。我认为这个问题很常见，所以我正在寻找以前的工作。

dataset rdbms anonymize

2021-06-27T16:45:55.313

0 投票

0 回答

37 浏览

postgresql - 使用 dataDefender 匿名化 DB postgres 期间出错

在使用 DataDefender 分析我的数据库并对其进行匿名化后，我遇到了一个异常！

您可以在下面找到错误描述：

有人有想法吗？

postgresql anonymize

2021-07-30T10:45:28.697

0 投票

1 回答

63 浏览

python - 如何根据列的值对熊猫数据框中的列进行分类？

我正在从事数据匿名化项目，偶然发现了faker，它具有广泛的生成合成数据的功能，例如姓名、姓氏、ssn、信用卡号、日期......

然而，用户必须手动选择将哪个函数应用于哪个列。就像是：

在某些数据集中，列的名称可能与其包含的数据不同。所以我想知道有没有办法以某种方式自动化将特定功能应用于各个列的过程？

或者以某种方式将列的值与函数期望的输入进行比较，如果相似，则应用该函数。

我真的很感激任何指示、指导或帮助！

python pandas faker anonymize

2021-11-09T14:38:11.980

0 投票

1 回答

56 浏览

python - 安装软件包时如何放宽所需的版本

有一个名为 cape-privace 的 python 匿名包。当我尝试 pip 安装它时，由于包冲突，它会给出错误，例如它需要 pandas==1.0.3，但它可以成功地与 pandas 最新版本一起使用。

如何访问 cape-privacy 设置设置以及我应该更改哪些内容才能成功安装

至于现在，我不断收到此错误。

python pip package pypi anonymize

2021-12-09T04:30:16.550

0 投票

0 回答

10 浏览

mongodb - 在复制生产数据并将其匿名以符合 gdpr 时，我应该更改 mongoDB 中的密钥吗？

我想将生产数据复制并匿名化到测试数据库以进行性能测试。生产数据库和测试数据库都具有符合 GDPR 的安全、访问和授权配置。假设我有一个包含以下对象的帐户集合：

我想将其匿名化为

如果您考虑测试数据库本身，则无法回溯原始个人数据。但是，如果您以某种方式获得对生产数据库的访问权限，并使用主键 "id" ，则可以找出原始值。

我的问题：要对副本数据库中的匿名生产数据进行性能测试，是否有必要更改数据库中的主键和外键以断开与生产数据的链接以符合 GDPR，考虑到两个数据库都以符合 GDPR 的方式存储（在例如 mongoDB 地图集）？

mongodb performance-testing anonymize

2022-02-18T07:51:00.597

问题标签 [anonymize]

Reference