如何将少量数据以随机顺序分布在大量数据中?
例如,我有几千行“真实”数据,我想在整个“真实”数据中以随机顺序插入十几或两行控制数据。
现在我不是要问如何使用随机数生成器,而是要问一个统计问题,我知道如何生成随机数,但我的问题是如何确保在同时相当均匀地分散在文件中。
如果我只依赖生成随机数,那么我的所有控制数据,或者至少是其中的一部分,都有可能(尽管非常小)被插入到一个相当狭窄的“真实”数据选择中。阻止这种情况发生的最好方法是什么?
换一种说法,我想在我的真实数据中插入控制数据,而第三方无法计算哪些行是控制的,哪些是真实的。
更新:我已经把它变成了一个“社区维基”,所以如果有人想编辑我的问题,让它更有意义,那就继续吧。
更新:让我举个例子(我不想让这种语言或平台依赖,因为它不是编码问题,而是统计问题)。
- 我有 3000 行“真实”数据(这个数量会随着运行的变化而变化,具体取决于用户拥有的数据量)。
- 我有 20 行“控制”数据(同样,这将根据用户想要使用的控制行数而变化,从零开始)。
我现在想在每插入 150 行或“真实”数据后插入这 20 个“控制”行( 3000/20 = 150)。但是,我不希望它像那样准确,因为我不希望控制行仅根据它们在输出数据中的位置来识别。
因此,我不介意某些“控制”行聚集在一起,或者有些部分根本没有“控制”行,但通常我希望“控制”行在整个数据中相当均匀地分布。