3

我有一个包含植被指数 (VI) 观察结果的大型数据集。我正在使用 R 对数据进行随机子采样,同时保持分布(相对频率)均匀(在整个 VI 范围内的观察量相等)。我无法得到相当均匀的分布。

例子:

norm<-rnorm(1000, mean = .5, sd = .25) # I have this 

hist(norm) #that is distributed like this

hist(unif<-runif(1000, min=0, max=1)) # but I want to resample the data to look like this
4

3 回答 3

3

怎么样:把VI的范围分成等宽的bin,把数据放到这些bin里面。分布中间的 bin 中的数据将多于末端的数据。随机选择 bin(以相同的概率),然后从 bin 中选择一项。

该想法的一种变体是随机选择 VI 范围内的一个点(以相等的概率),然后找到落在 (x - dx/2) 到 (x + dx/2) 区间内的数据,其中 dx大到足以捕获至少一些数据。然后从该区间中选择一个数据(以相等的概率)。可能还有更多的变化。

像这样的非均匀抽样的一个后果是,您可能会一遍又一遍地从尾部中选择相同的项目。我看不出有什么办法。这似乎是不可避免的后果。但我可能错了。

于 2016-07-02T00:38:55.073 回答
3

具有反向输入分布加权的样本

啊哈!我想到了第二种解决方案,我认为它可能比我的第一种解决方案更好,我将其保留在下面的重复目标分布最近匹配选择部分下。

sample()函数有一个prob参数,允许我们为输入向量的元素指定概率权重。我们可以使用这个参数来增加选择出现在输入分布的稀疏段(即尾部)中的元素的概率,并降低选择出现在更密集段(即中心)中的元素的概率。我认为密度函数的简单算术反演dnorm()就足够了:

测试数据

set.seed(1L);
normSize <- 1e4L; normMean <- 0.5; normSD <- 0.25;
norm <- rnorm(normSize,normMean,normSD);

解决方案

unifSize <- 1e3L; unifMin <- 0; unifMax <- 1;
normForUnif <- norm[norm>=unifMin & norm<=unifMax];
d <- dnorm(normForUnif,normMean,normSD);
unif <- sample(normForUnif,unifSize,prob=1/d);
hist(unif);

hist-unif-1


重复目标分布最近匹配选择

生成一组与您的目标(均匀)分布不同的随机偏差。对于每个偏差,从输入(正态)分布中找到最接近它的元素。考虑要为样本选择的元素。

重复上述操作,直到唯一选择的数量达到或超过样本所需的大小。如果它超过了所需的大小,请将其截断为所需的大小。


我们可以使用findInterval()为每个均匀偏差找到最接近的法线偏差。这需要进行几次调解才能正确。我们必须对正态分布向量进行排序,因为findInterval()需要vec排序。而不是使用目标分布的真实最小值零作为我们传递给 的最小值runif(),我们必须传递输入集中存在的不低于零的最小值;否则,低于该值的均匀偏差将匹配低于均匀分布可接受最小值的输入元素。此外,为了提高效率,在运行调用的循环之前findInterval(),最好从正态分布向量中移除所有不在目标分布可接受范围内(即[0,1])的值,这样它们就不会参与匹配算法。它们不是必需的,因为它们无论如何都无法匹配。

如果目标样本大小比输入分布向量小足够大,这应该消除结果样本中输入分布的任何痕迹。

测试数据

set.seed(1L);
normSize <- 1e6L; normMean <- 0.5; normSD <- 0.25;
norm <- rnorm(normSize,normMean,normSD);

解决方案

unifSize <- 200L; unifMin <- 0; unifMax <- 1;
normVec <- sort(norm[norm>=unifMin & norm<=unifMax]);
inds <- integer();
repeat {
    inds <- unique(c(inds,findInterval(runif(unifSize*2L,normVec[1L],unifMax),normVec)));
    if (length(inds)>=unifSize) break;
};
length(inds) <- unifSize;
unif <- normVec[inds];
hist(unif);

组织统一

一个警告是,findInterval()从技术上讲,它不会找到最近的元素,它会找到小于或等于搜索值的元素。我认为这不会对结果产生任何重大影响;最多,它会无限地偏向选择更小的值,但以统一的方式。如果你真的想要,你可以看看存在的各种查找最近的选项,例如参见R: find nearest index

于 2016-07-02T03:56:31.067 回答
0

您可以runif在具有不同种子的循环中使用 R 中 stats 包中的函数。假设您要制作 100 个子样本并在最后合并它们,那么这应该可以完成工作:

list_of_uniformsamples <- vector("list", length = 100)
for (i in 1:100){
set.seed(123+i)
list_of_uniformsamples[[i]] <- round(runif(1000, min=1, max=Number_of_observations))
}
pool_of_uniform_samples <- unlist(list_of_uniformsamples)
于 2021-01-25T11:32:28.193 回答