具有反向输入分布加权的样本
啊哈!我想到了第二种解决方案,我认为它可能比我的第一种解决方案更好,我将其保留在下面的重复目标分布最近匹配选择部分下。
该sample()
函数有一个prob
参数,允许我们为输入向量的元素指定概率权重。我们可以使用这个参数来增加选择出现在输入分布的稀疏段(即尾部)中的元素的概率,并降低选择出现在更密集段(即中心)中的元素的概率。我认为密度函数的简单算术反演dnorm()
就足够了:
测试数据
set.seed(1L);
normSize <- 1e4L; normMean <- 0.5; normSD <- 0.25;
norm <- rnorm(normSize,normMean,normSD);
解决方案
unifSize <- 1e3L; unifMin <- 0; unifMax <- 1;
normForUnif <- norm[norm>=unifMin & norm<=unifMax];
d <- dnorm(normForUnif,normMean,normSD);
unif <- sample(normForUnif,unifSize,prob=1/d);
hist(unif);
重复目标分布最近匹配选择
生成一组与您的目标(均匀)分布不同的随机偏差。对于每个偏差,从输入(正态)分布中找到最接近它的元素。考虑要为样本选择的元素。
重复上述操作,直到唯一选择的数量达到或超过样本所需的大小。如果它超过了所需的大小,请将其截断为所需的大小。
我们可以使用findInterval()
为每个均匀偏差找到最接近的法线偏差。这需要进行几次调解才能正确。我们必须对正态分布向量进行排序,因为findInterval()
需要vec
排序。而不是使用目标分布的真实最小值零作为我们传递给 的最小值runif()
,我们必须传递输入集中存在的不低于零的最小值;否则,低于该值的均匀偏差将匹配低于均匀分布可接受最小值的输入元素。此外,为了提高效率,在运行调用的循环之前findInterval()
,最好从正态分布向量中移除所有不在目标分布可接受范围内(即[0,1])的值,这样它们就不会参与匹配算法。它们不是必需的,因为它们无论如何都无法匹配。
如果目标样本大小比输入分布向量小足够大,这应该消除结果样本中输入分布的任何痕迹。
测试数据
set.seed(1L);
normSize <- 1e6L; normMean <- 0.5; normSD <- 0.25;
norm <- rnorm(normSize,normMean,normSD);
解决方案
unifSize <- 200L; unifMin <- 0; unifMax <- 1;
normVec <- sort(norm[norm>=unifMin & norm<=unifMax]);
inds <- integer();
repeat {
inds <- unique(c(inds,findInterval(runif(unifSize*2L,normVec[1L],unifMax),normVec)));
if (length(inds)>=unifSize) break;
};
length(inds) <- unifSize;
unif <- normVec[inds];
hist(unif);
一个警告是,findInterval()
从技术上讲,它不会找到最近的元素,它会找到小于或等于搜索值的元素。我认为这不会对结果产生任何重大影响;最多,它会无限地偏向选择更小的值,但以统一的方式。如果你真的想要,你可以看看存在的各种查找最近的选项,例如参见R: find nearest index。