4

我正在处理金融/经济数据,以防您想知道以下某些系数的大小...我的一般问题与 R 中线性随机效应模型输出的参数系数的模拟有关。我是尝试使用模型系数和 R 中同一模型的方差-协方差 (VCOV) 矩阵生成 beta 系数的随机样本。我的问题是:为什么我会收到以下关于预期值平方根的错误mvtnorm{} 包中的 rmvnorm() 函数?我该如何处理这个警告/问题?

#Example call: lmer model with random effects by YEAR
#mlm<-lmer(DV~V1+V2+V3+V2*V3+V4+V5+V6+V7+V8+V9+V10+V11+(1|YEAR), data=dat)
#Note: 5 years (5 random effects total)

#LMER call yields the following information:
coef<-as.matrix(c(-28037800,0.8368619,2816347,8681918,-414002.6,371010.7,-26580.84,80.17909,271.417,-239.1172,3.463785,-828326))

sigma<-as.matrix(rbind(c(1834279134971.21,-415.95,-114036304870.57,-162630699769.14,-23984428143.44,-94539802675.96,
                       -4666823087.67,-93751.98,1735816.34,-1592542.75,3618.67,14526547722.87),
                 c(-415.95,0.00,41.69,94.17,-8.94,-22.11,-0.55,0.00,0.00,0.00,0.00,-7.97),
                 c(-114036304870.57,41.69,12186704885.94,12656728536.44,-227877587.40,-2267464778.61,
                       -4318868.82,8909.65,-355608.46,338303.72,-321.78,-1393244913.64),
                 c(-162630699769.14,94.17,12656728536.44,33599776473.37,542843422.84,4678344700.91,-27441015.29,
                       12106.86,-225140.89,246828.39,-593.79,-2445378925.66),
                 c(-23984428143.44,-8.94,-227877587.40,542843422.84,32114305557.09,-624207176.98,-23072090.09,
                       2051.16,51800.37,-49815.41,-163.76,2452174.23),
                 c(-94539802675.96,-22.11,-2267464778.61,4678344700.91,-624207176.98,603769409172.72,90275299.55,
                       9267.90,208538.76,-209180.69,-304.18,-7519167.05),
                 c(-4666823087.67,-0.55,-4318868.82,-27441015.29,-23072090.09,90275299.55,82486186.42,-100.73,
                       15112.56,-15119.40,-1.34,-2476672.62),
                 c(-93751.98,0.00,8909.65,12106.86,2051.16,9267.90,-100.73,2.54,8.73,-10.15,-0.01,-1507.62),
                 c(1735816.34,0.00,-355608.46,-225140.89,51800.37,208538.76,15112.56,8.73,527.85,-535.53,-0.01,21968.29),
                 c(-1592542.75,0.00,338303.72,246828.39,-49815.41,-209180.69,-15119.40,-10.15,-535.53,545.26,0.01,-23262.72),
                 c(3618.67,0.00,-321.78,-593.79,-163.76,-304.18,-1.34,-0.01,-0.01,0.01,0.01,42.90),
                 c(14526547722.87,-7.97,-1393244913.64,-2445378925.66,2452174.23,-7519167.05,-2476672.62,-1507.62,21968.29,
                        -23262.72,42.90,229188496.83)))
#Error begins here:
betas<-rmvnorm(n=1000, mean=coef, sigma=sigma)
#rmvnorm breaks, Error returned:

警告消息:在 sqrt(ev$values) 中:产生了 NaN

当我谷歌以下搜索字符串:“rmvnorm,”警告消息:在 sqrt(ev$values) 中:NaNs 产生,”我看到: http ://www.nickfieller.staff.shef.ac.uk/sheff-only /mvatasksols6-9.pdf 在第 4 页上,此错误表示“负特征值。”虽然,我从概念上或实际上不知道负特征值是什么,也不知道为什么会在这种情况下产生它们。

第二个搜索结果:[ http://www.r-tutor.com/r-introduction/basic-data-types/complex 2表示出现这个错误是因为试图取-1的平方根,即“不是一个复杂的值”(你不能取 -1 的平方根)。

问题仍然存在,随机生成的 beta 发生了什么,如何纠正?

sessionInfo() R 版本 3.0.2 (2013-09-25) 平台:x86_64-apple-darwin10.8.0 (64-bit)

使用以下软件包/版本 mvtnorm_0.9-9994、lme4_1.1-5、Rcpp_0.10.3、Matrix_1.1-2-2、lattice_0.20-23

4

1 回答 1

2

你的特征值有很大范围的尺度:

range(eigen(sigma)$values)
## [1] -1.005407e-05  1.863477e+12

我更喜欢mvrnorm从 MASS 包中使用,因为它是随 R 自动安装的。它似乎也更健壮:

set.seed(1001)
m <- MASS::mvrnorm(n=1000, mu=coef, Sigma=sigma)  ## works fine

编辑:OP指出使用method="svd"withrmvnorm也有效。

如果您打印MASS::mvrnorm或的代码debug(MASS:mvrnorm)并单步执行,您会看到它使用

if (!all(ev >= -tol * abs(ev[1L]))) stop("'Sigma' is not positive definite")

(其中ev是特征值向量,按降序排列,ev[1]最大特征值也是)来决定方差-协方差矩阵的正定性。在这种情况下ev[1L],大约是 2e12,tol是 1e-6,所以这将允许负特征值达到大约 2e6 的大小。在这种情况下,最小特征值为 -1e-5,完全在公差范围内。

更远的MASS::mvrnorm用途pmax(ev,0)——也就是说,如果它已经确定特征值不低于公差(即它没有通过上面的测试),它只是将负值截断为零,这对于实际目的来说应该没问题。

如果你坚持使用rmvnorm你可以使用Matrix::nearPD,它试图强制矩阵是正定的——它返回一个列表,其中包含(除其他外)特征值和“正定”矩阵:

m <- Matrix::nearPD(sigma)
range(m$eigenvalues)
## [1] 1.863477e+04 1.863477e+12

从矩阵计算的特征值并不完全相同——nearPD并且eigen使用的算法略有不同——但它们非常接近。

range(eigen(m$mat)$values)
## [1] 1.861280e+04 1.863477e+12

更普遍,

  • 特征值范围巨大的部分原因可能是预测变量的比例非常不同。如果可能的话,缩放您的输入数据可能是一个好主意,以使方差彼此更加相似(即,它将使您的所有数值计算更加稳定)——一旦您生成它们,您总是可以重新缩放这些值
  • 当矩阵非常接近奇异时(即一些特征值非常接近零),小的数值差异也会改变特征值的符号。特别是,如果您复制和粘贴这些值,您可能会丢失一些精度并导致此问题。使用dput(vcov(fit))save(vcov(fit))以全精度保存方差-协方差矩阵更安全。
  • 如果您不知道“肯定”是什么意思,您可能想了解一下。关于协方差矩阵正定矩阵的维基百科文章可能对您来说有点过于技术化;StackExchange 上的这个问题更接近,但仍然有点技术性。我的谷歌之旅的下一个条目是这个,看起来不错。
于 2014-03-17T20:45:07.933 回答