问题标签 [anonymize]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
99 浏览

vpn - 如果服务器只为使用 VPN/Tor IP 地址的请求提供服务,您能否提供无知识的 SaaS?

为了保护用户,您将拒绝服务来自非 VPN/Tor IP 地址的请求。

您如何获取并保持更新列表

  1. 顶级/最安全的 VPN 提供商的 IP 地址?(其他人不会被服务批准/使用)
  2. Tor出口节点IP地址?
0 投票
1 回答
464 浏览

c# - EvilDicom 图像损坏

我正在尝试使用该库来匿名化 dicom 图像。在某些情况下它可以正常工作,但在其他情况下,最终图像已损坏。我的意思是,图像的像素错误FileMetaInformationGroupLength,最终图像的标签也发生了变化。当我不匿名图像时也会发生这种情况,我只是在新文件中读取和写入图像。

这是我的代码://-------------------------------------------- --------------------------

//------------------------------------------------ ---------------------

以下是我遇到问题的原始图像: https ://www.dropbox.com/s/s5ase23jl9908jm/3DSlice1.dcm?dl=0

以下是原始图像和最终图像(损坏的图像)的屏幕截图。 https://www.dropbox.com/s/12liy3gbw7dkb4d/Image_corrupted.PNG?dl=0

我不知道像素数据发生了什么。但我已经看到FileMetaInformationGroupLength标签发生了变化。

0 投票
2 回答
4908 浏览

security - GDPR 合规性

刚刚发现这项新规定,它将在 2018 年成为法律,并影响任何存储欧盟公民数据的人,这些数据可用于识别一个人。更多细节在这里

我有一个不存储姓名和确切地址的页面,但它将出生日期和国家/城市存储为位置,并使用这两者来提供服务(这是核心服务,所以我不能停止收集这些数据) .

据我了解,我必须采取一些措施来确保遵守 GDPR,但我还没有找到合理的解释这意味着什么。有十几篇文章重述了 GDPR 的段落,这根本没有帮助。

我不介意完全删除,向用户解释我存储了哪些数据以及类似的点......我最担心的是关于匿名数据的部分,因此在发生违规时,它们不能用于识别一个人。我该怎么做?如果我存储一个用于验证用户帐户的电子邮件地址,并通过 PK 将出生日期和位置数据与该已验证电子邮件联系起来,它们就不再是匿名的……而且它们不可能是,对吧?

对符合 GDPR 的实际解决方案有任何想法吗?

0 投票
1 回答
73 浏览

r - R - 遍历列表中的 data.frames - 修改列的字符(列表元素)

我有几千个*.csv文件(都有一个唯一的名称),但标题 - 列在文件中是相等的 - 比如"Timestamp", "System_Name","CPU_ID"等......
我的问题是如何替换"System_Name"(这是一个系统名称,如"as12535.org.at"或任何其他字符组合,并将其匿名化?我很感激任何提示或指向正确方向...
在 CSV 文件的结构下方...

我尝试使用anonymizer在矢量级别上运行良好的 R 包,但我遇到了对我在 R 中读取的数千个 csv 文件执行此操作的问题 - 我尝试的是以下内容 - 创建一个包含所有 csv 文件的列表列表中的数据框。

我正在绞尽脑汁,因为我无法匿名化System_Name列,甚至无法替换某些字符(用于伪匿名化)并循环遍历列表(ldf)和该列表的数据框元素。

我的列表ldf(包含单个 csv 文件的 df)如下所示:

显示我的列表的结构,包含所有文件内容作为数据框

我现在如何读取所有 CSV 文件,更改或匿名化整个甚至部分"System_Name"列,并在 R 的循环中为我的目录中的每个 CSV 执行此操作?不需要超级优雅——当它完成工作时我很高兴:-)

0 投票
2 回答
1519 浏览

python - 重新编码 pandas 列的最有效和 Pythonic 方法是什么?

我想在 pandas DataFrame 中“匿名化”或“重新编码”一列。最有效的方法是什么?我写了以下内容,但似乎有内置函数或更好的方法。

0 投票
0 回答
447 浏览

r - 在 R 中删除对象元数据

我正在编写一些代码来匿名化 R 数据集,这样它可以从数据中去除任何有用的信息,同时保留对运行回归等很重要的结构。我想确保我已经删除了所有可能隐藏的有关数据的信息。到目前为止,我的过程是:

  1. 用无意义的名称(x1,x2,...)替换数据框的变量名称
  2. 将所有分类变量转换为具有简单数值级别的因子
  3. 缩放和居中所有数值变量(逻辑或 0/1 除外)
  4. 用于attributes(x) <- NULL剥离通过haven等添加的变量标签等内容。

在指定此程序时,我正试图戴上我的锡箔帽。我是否涵盖了所有基础,或者是否有其他方式可以将有关数据内容的信息隐藏在我的数据集中?

注意:我特别询问我是否已经删除了 R 对象中明确包含的所有信息。例如,不了解属性的 R 新手用户可能会认为步骤 1 到 3 就足以剥离对象的可读信息。我想确定是否还有其他可能需要删除的功能。数据本身的结构中是否有任何重要信息的问题与我的更广泛的任务相关,但超出了本网站的范围,我想可能会有大量的信息写在上面。

0 投票
4 回答
6436 浏览

python - 在pandas dataframe python中使用pii匿名化特定列

我已经加载了一个带有 json 文件的 s3 存储桶,并将其解析/展平到 pandas 数据帧中。现在我有一个包含 175 列的数据框,其中 4 列包含个人身份信息。

我正在寻找一种对这些列(名称和地址)进行匿名化的快速解决方案。我需要保留多个信息,以便同一个人的姓名或地址多次出现时具有相同的哈希值。

pandas 或其他一些我可以利用的包中是否有现有功能?

0 投票
1 回答
39 浏览

sql - Oracle SQL - 如何在不显示显式值的情况下格式化输出

我正在对考试结果表进行查询。如果分数高于 50%,则学生通过考试。如果考试分数高于 50%(即考试通过),我希望查询的输出显示 1,如果分数低于 50%(即考试失败),则显示 0。我不希望显示实际考试成绩。

我该怎么做呢?我发现了几篇关于用空格、线括号、重命名列等格式化结果的文章和页面,但我不知道如何使用“表示值”。

有没有办法编写查询,以使结果看起来像我上面的示例中的结果?

0 投票
0 回答
56 浏览

hash - 记录链接上下文中的文本匿名化

我有两个数据集需要链接在一起,因为我必须在一定的误差范围内找到出现在两个数据集中的记录(例如,一个人的名字在其中一个集中拼写错误,一个人搬家、结婚并因此获得了不同的姓氏等)

由于数据是敏感的,因此应该匿名。但是,我不能使用标准的匿名化技术(例如散列),因为这不会保留一些对链接记录至关重要的属性。

因此,我正在寻找一种方法来匿名化我的文本数据,以保留例如 Levenshtein 距离。这种技术存在吗?

0 投票
3 回答
811 浏览

r - 您如何以在 R 中生成人类可读输出的方式对向量进行匿名化?

为了保护研究对象在数据集中不被识别,我对在 R 中匿名化向量很感兴趣。但是,我也希望在编写研究时能够参考输出(例如“主题 [随机 id]显示...”)。我发现我可以使用 anonymizer 包轻松生成短散列,但是虽然以书面形式引用短散列是可行的,但它并不完全理想(例如“主题 f4d35fab 显示......”很难记住,有点满嘴,并且很难区分其他散列数据,例如“来自 8b3bd334 的主题 f4d35fab 显示......”)。

有没有办法将哈希转换为随机的人类可读字符串,或者以非以加密为中心的方式匿名数据?