我正在生成有关用户操作的日志记录。出于隐私原因,这些需要在 N 天后匿名。但是,我还需要针对这些匿名数据运行报告。
我希望真实用户 A 的所有操作都列在匿名日志中的假用户 X 下 - 一个用户的记录必须仍然是日志中一个(假)用户的记录。这显然意味着我需要在真实用户和虚假用户之间进行一些映射,我在匿名新记录时使用它。当然,这完全违背了匿名化的意义——如果有映射,则可以恢复原始用户数据。
例子:
用户 Frank Müller 买了 3 罐汤。
三天后,用户 Frank Müller 要求退款 3 罐汤。
当我匿名化第二个日志条目时,第一个已经被匿名化了。我仍然希望两个日志记录都指向同一个用户。嗯,这在实践中对我来说似乎几乎是不可能的,所以我想使用一些拆分数据的方法,希望能让我在数据中保持尽可能多的完整性。也许将日志用作数据仓库 - 将所有内容分解为事实并接受某些维度无法分析的事实?
你以前遇到过这样的场景吗?我在这里有什么选择?我显然需要做出某种妥协——什么对你有效?如何充分利用这些数据?