问题标签 [pii]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
azure - Azure 订阅 ID、AAD 租户 ID 和 AAD 应用客户端 ID 是否被视为机密/PII?
为了诊断和使用目的,我想在遥测中记录以下内容:
- Azure 订阅 ID
- AAD 租户 ID
- AAD 应用程序客户端 ID
我应该将它们视为秘密/PII 并对它们进行散列/加密吗?
(不用说,我不会以任何形式或形式保留客户的秘密)
python - 在pandas dataframe python中使用pii匿名化特定列
我已经加载了一个带有 json 文件的 s3 存储桶,并将其解析/展平到 pandas 数据帧中。现在我有一个包含 175 列的数据框,其中 4 列包含个人身份信息。
我正在寻找一种对这些列(名称和地址)进行匿名化的快速解决方案。我需要保留多个信息,以便同一个人的姓名或地址多次出现时具有相同的哈希值。
pandas 或其他一些我可以利用的包中是否有现有功能?
google-analytics - PII 违规电子邮件,即使它已被修复并且在报告中没有显示 PII
我通过标签管理器在 Universal Analytics 标签中使用 customTask 来处理 PII。之后,我定期监控 Google Analytics 中的报告,发现所有点击都被清除了。(即 PII 已编辑)
但我仍然收到来自 adwords-noreply@google.com 的电子邮件,其中一些链接到特定“再营销列表”的 URL 违反了 PII。
现在无法确认是否确实违反了 PII。我不知道我应该去哪里看,在哪个部分(Adwords 帐户或 Analytics 帐户)我可以看到正在将 PII 信息传递给 Google 的 URL?
这是我在 GA 报告中看到的:
https://siteurl/u/password-reset/reset?email=ja[已编辑电子邮件]l.com&authenticationCode=8127489044212
这是违规电子邮件中发送的内容:
https://siteurl/u/password-reset/reset?email=jack@emabell.com&authenticationCode=8127489044212
如果我使用标签管理器编辑了 PII,我还需要在 Adwords 帐户中做些什么吗?
google-cloud-platform - 如何使用 Google DLP API 从存储在 Google Big Query 中的数据中删除敏感内容?
我在 Google Big Query 中有一个包含一些敏感字段的表。我阅读并了解了有关数据检查的内容,但找不到直接在 BigQuery 数据库中使用 DLP API 编辑数据的方法。
两个问题:
- 是否可以仅使用 DLP API 来做到这一点?
- 如果不是,那么在运行到 TB 的表中修复数据的最佳方法是什么?
java - 使用 Java 技术存储 UII 和 PII 的加密算法
什么类型的算法(例如 AES)可用于使用 Java 技术加密/存储用户的个人身份信息 (PII) 和唯一身份信息 (UII)?
例如,加密/存储社会安全号码 (SSN) 和生日的标准方法是什么?
它只是使用特定算法加密这些数据,然后将其存储在数据库中?
Java 开发人员可以使用任何第三方开源库吗?
bash - Bash:需要替换文件中的不同电子邮件地址
我正在尝试在文件 (.json) 中屏蔽 PII。
该文件包含不同的电子邮件地址,我想用其他不同的电子邮件地址更改它们。
例如:
我需要将它们更改为:
使用 sed 和正则表达式,我已经能够将地址更改为一个模拟电子邮件地址,但我想将每封电子邮件更改为不同的模拟电子邮件。
模拟电子邮件地址存储在文件中。要获得一个随机地址,我使用:
有任何想法吗?谢谢!
string - 实时个人身份信息 (PII) 检测
我有一个涉及自由文本用户输入(少于 80 个字符的字符串)的项目,我需要检测该字符串中的 PII。这一切都需要实时发生,因为我们需要向用户输入(在 2 秒左右)发送响应,这部分取决于 PII 是否在文本中。
我已经找到了一些解决方案,但它们并不是我想要的:
- Google DLP - 请求需要两秒钟以上来处理字符串,因此无法使用。
- redact-pii(npm 模块) - 检测过于简单
- AWS Macie - 在现有数据存储上运行,而不是在运行中的数据上运行。
您对可以提供帮助的服务或图书馆有什么建议吗?
我们要检测的特定 PII 涉及姓名、地址、电话号码等内容。还有SPII,如信用卡号、社会保险号。本质上,我们希望在处理自由文本时符合 PIPEDA 和 GDPR 等标准。
api - Google DLP 需要很长时间来处理
我尝试使用 Google DLP(特别是检查文本 - 少于 80 个字符的字符串),我发现请求需要两秒钟以上才能完成。
这是正常的吗?有没有办法减少处理时间?
python - 正则表达式在 python 中识别医疗受益人标识符(MBI)
所以我试图在 python 中为 MBI(医疗受益人标识符)创建一个正则表达式,而我的正则表达式不起作用。
MBi 的任何示例是:1EG4-TE5-MK73
这是 MBI 的格式:
11 个字符
MBI 的第 2、5、8 和 9 个字符将始终是字母。
字符 1、4、7、10 和 11 始终是数字。
我尝试使用以下正则表达式但无济于事:
有什么建议么?!?!