0

Say I'm running some sort of public web service and I'd obviously like to collect metrics. For the sake of this argument, let's assume the data I'm interested in would only be what is available from parsing standard Apache access logs. Is there a way to maintain these types of analytics without also keeping identifying information about users?

I've thought about things like hashing IP addresses but this has many obvious problems.

4

1 回答 1

1

是的。如果您不希望以纯文本形式存储 IP 地址,您可以使用 HMAC 匿名化 IP。问题可能出在通常包含查询参数的引用 URL 上,对于请求也是如此。例如,如果用户的邮件在查询中,则您必须将其替换为(例如 uuid)。

散列 IPv4 地址的问题是它们是 32 位的,因此很容易进行暴力搜索。除非密钥受到保护,否则 HMAC 可以稍微改善这种情况。 https://panopticlick.eff.org/使用此技术(定期删除/更改密钥)。

您实际上可以使用http://bug.st/mod_anonstats对 IP 进行匿名化,但仍然计算用户数。

引用者可以很容易地解决敏感链接: http: //www.whatwg.org/specs/web-apps/current-work/multipage/links.html#link-type-noreferrer 然而,这假设一个现代浏览器。

于 2013-09-02T15:18:44.333 回答