我正在编写一些代码来匿名化 R 数据集,这样它可以从数据中去除任何有用的信息,同时保留对运行回归等很重要的结构。我想确保我已经删除了所有可能隐藏的有关数据的信息。到目前为止,我的过程是:
- 用无意义的名称(x1,x2,...)替换数据框的变量名称
- 将所有分类变量转换为具有简单数值级别的因子
- 缩放和居中所有数值变量(逻辑或 0/1 除外)
- 用于
attributes(x) <- NULL
剥离通过haven
等添加的变量标签等内容。
在指定此程序时,我正试图戴上我的锡箔帽。我是否涵盖了所有基础,或者是否有其他方式可以将有关数据内容的信息隐藏在我的数据集中?
注意:我特别询问我是否已经删除了 R 对象中明确包含的所有信息。例如,不了解属性的 R 新手用户可能会认为步骤 1 到 3 就足以剥离对象的可读信息。我想确定是否还有其他可能需要删除的功能。数据本身的结构中是否有任何重要信息的问题与我的更广泛的任务相关,但超出了本网站的范围,我想可能会有大量的信息写在上面。