是否有从 URL 中识别和删除任何 PII 信息的规则?我希望这是通用的,可以处理我们可能在互联网上遇到的各种 url。
澄清:我有一个浏览互联网的人的 url 列表,并希望从中删除 PII。
是否有从 URL 中识别和删除任何 PII 信息的规则?我希望这是通用的,可以处理我们可能在互联网上遇到的各种 url。
澄清:我有一个浏览互联网的人的 url 列表,并希望从中删除 PII。
要回答您在回复 snemarch 时重申的问题:
是的,我明白这一点。我的意思是我需要记住哪些注意事项来识别 url 中的 PII?PII 可能出现在 URL 中的各种方式是什么?
HTTP GET 信息可以通过多种不同的方式传输。有些,可能是大多数,看起来像这样:
example.com/form.php?key=value。
其他网站,包括 stackoverflow,可能会使用 URL 重写将链接“example.com/form/value”转换为等效的:“example.com/form.php?key=value”。这种 URL 重写完全依赖于服务器的配置,并且没有简单的方法来检测和剥离以这种方式呈现的 PII。
考虑到这一点,实际上没有办法 100% 从不同 url 列表中删除所有 PII,因为从没有任何 PII 的 URL 中可能无法识别此类信息。至少,您可以删除绝对是 PII 的信息,例如“example.com/form.php?key=value”形式的 URL。我敢打赌,任何带有“=”的 URL 中都有某种变量,应该被过滤掉。除此之外,您将不得不手动解析大部分列表。
根据列表的大小以及您对过滤它的认真程度,您可以研究流行产品的流行 mod_rewrite 方法并尝试在您的列表中匹配它们,抓取 URL 以确定有关 URL 的其他信息,并执行一些复杂且可能的操作丑陋的算法试图猜测 URL 中的变量可能是什么 - 可能考虑到用户访问过的类似 URL 并比较 URL 的标记。给定标记中文本略有不同的相似 url 可能是变量,应该被过滤。
祝你好运!
您绝不应该通过 GET 从 URL 传递任何用户敏感信息。如果您改用 POST,则只需确保连接是 HTTPS。