r - 为什么需要两个随机偏差来确保使用 sample() 对大整数进行均匀采样？

Question

鉴于以下是等价的，我们可以推断 R 使用相同的 C函数来为和runif生成统一样本...sample()runif()

set.seed(1)
sample(1000,10,replace=TRUE)
#[1] 27 38 58 91 21 90 95 67 63  7

set.seed(1)
ceiling( runif(10) * 1000 )
#[1] 27 38 58 91 21 90 95 67 63  7

然而，在处理大数时它们并不等价（n > 2^32 - 1）：

set.seed(1)
ceiling( runif(1e1) * as.numeric(10^12) )
#[1] 265508663143 372123899637 572853363352 908207789995 201681931038 898389684968
#[7] 944675268606 660797792487 629114043899  61786270468

set.seed(1)
sample( as.numeric(10^12) , 1e1 , replace = TRUE )
#[1] 2655086629 5728533837 2016819388 9446752865 6291140337 2059745544 6870228465
#[8] 7698414177 7176185248 3800351852

更新

正如@Arun指出runif()1st, 2nd, 3rd ... 的近似结果的 1st, 3rd, 5th, ... 来自sample().

事实证明，这两个函数都unif_rand()在幕后调用，但是，sample给定一个参数，n该参数大于类型的最大可表示整数，"integer"但可以表示为整数，因为类型"numeric"使用此静态定义来绘制随机偏差（而不是unif_rand()仅仅在runif())...的情况下

static R_INLINE double ru()
   {
       double U = 33554432.0;
       return (floor(U*unif_rand()) + unif_rand())/U;
   }

在文档中有一个神秘的注释......

使用两个随机数来确保大整数的均匀采样。

为什么需要两个随机数来确保大整数的均匀采样？
常数是什么U，为什么它取特定值33554432.0？

score 2 · Accepted Answer

原因是 25 位 PRNG 不会产生足够的位来生成大于 2^25 范围内的所有可能整数值。为了给每个可能的整数值一个非零概率，有必要调用 25 位 PRNG 两次。通过两次调用（如您引用的代码），您将获得 50 个随机位。

注意 adouble有 53 位尾数，所以两次调用 PRNG 仍然缺少 3 位。

r - 为什么需要两个随机偏差来确保使用 sample() 对大整数进行均匀采样？

更新

1 回答 1

Related

Reference