2

我希望与一组数据科学家共享一个数据集(主要是时间序列数据),以探索数据中的统计关系(例如变量之间)。但是,出于保密原因,我无法共享原始数据集,因此我想知道是否可以通过一些我知道但接收者不会的随机转换来转换数据。这是一种常见的做法吗?是否有相关的 R 包?

我一直在探索合成数据集的使用,并查看了“synthpop”,但我遇到的挑战似乎略有不同。例如,我不一定希望数据包含与原始文件相似的虚构个人。相反,我希望与特定变量相关联的值对人类观察者来说是不清楚的(例如仍然是数字但也是荒谬的),但仍然可以进行统计分析(例如,尽管实际值不清楚,变量 'x' 和 ' 之间的关系y' 保持不变)。

我有一种感觉,这可能是一个非常简单的过程(例如更改变量的名称,对所有变量应用相同的转换),但我不是数学家/统计学家,所以我不想通过不恰当的转变。

谢谢!

4

0 回答 0