3

如何生成准确的数据?

在 R 中,我们可以选择rnorm从具有某些特征(例如,mean=0,sd=1)的总体中进行抽样,但是我们如何获得具有完全mean=0,sd=1 的数据呢?

这是一个简单的例子。我也会对应用获取精确数据的方法的更通用方法感兴趣(例如,精确相关性为 0.2 的多元数据)

4

3 回答 3

4

简单地扩展您的结果。在单变量情况下:

set.seed(21)
x <- rnorm(1000)
mean(x)
sd(x)
y <- x-mean(x)
y <- y/sd(x)
mean(y)  # within floating point precision of 0
sd(y)

多变量案例涉及更多,但可能。

于 2013-04-20T16:30:24.907 回答
3

听起来你想要 MASS 包中的 mvrnorm 。

sigma <- matrix(c(1.0, 0.0, -0.5,
                  0.0, 1.0,  0.5,
                 -0.5, 0.5,  1.0), 3, byrow = TRUE)
mat <- mvrnorm(10, c(0,0,0), sigma, empirical = TRUE)
cor(mat)
#     [,1]  [,2]  [,3]
#[1,]  1.0   0.0  -0.5
#[2,]  0.0   1.0   0.5
#[3,] -0.5   0.5   1.0

请注意,通过为每个组选择 1 的 SD,我简化了事情,因为协方差将等于相关性,但您可以通过记住相关性是协方差除以 SD 的乘积来概括这一点。

(请注意,当您运行代码时,您可能无法获得准确的值,而是机器精度范围内的值......这是我们所希望的)

于 2013-04-20T16:37:19.543 回答
2

您可以简单地重新调整数据。

n <- 100
x <- rnorm(n)
x <- ( x - mean(x) ) / sd(x)
mean(x)   # 0, up to machine precision
sd(x)     # 1

您还可以使用ppoints均匀分布的点(不过,您仍然需要重新缩放)。

x <- qnorm( ppoints(n) )
x <- ( x - mean(x) ) / sd(x)
mean(x)
sd(x)

在更高维度,转换有点棘手。如果x是高斯向量,均值为 0,方差为单位矩阵,C %*% x则为高斯向量,均值为 0,方差矩阵为V = CC'C是 的 Cholesky 变换V;它可以看作是(对称,半正定)矩阵的平方根的类似物。

实际上需要其中两个转换:第一个将方差设置为恒等,第二个将其设置为所需值。

# Desired variance matrix
V <- matrix( c(1,.2,.2, .2,1,.2, .2,.2,1), 3, 3 )

# Random data
n <- 100
k <- 3
x <- matrix( rnorm(k*n), nc=3 )

# Set the mean to 0, and the variance to the identity
x <- t( t(x) - colMeans(x) )
colMeans(x)   # 0
C1 <- chol(var(x))
x <- x %*% solve(C1)
var(x)   # identity matrix

# Set the variance to the desired value
C2 <- chol(V)
x <- x %*% C2
var(x) - V   # zero
于 2013-04-20T16:41:59.633 回答