7

我已经搜索过类似的问题,但我对我应该做什么有一个模糊的想法:将所有内容矢量化或使用apply()家庭。但我是 R 编程的初学者,上述两种方法都非常令人困惑。

这是我的源代码:

x<-rlnorm(100,0,1.6)
j=0
k=0
i=0
h=0
lambda<-rep(0,200)
sum1<-rep(0,200)
constjk=0
wj=0
wk=0
for (h in 1:200)
{
   lambda[h]=2+h/12.5
   N=ceiling(lambda[h]*max(x))
   for (j in 0:N)
   {
      wj=(sum(x<=(j+1)/lambda[h])-sum(x<=j/lambda[h]))/100
      for (k in 0:N)
      {
         constjk=dbinom(k, j + k, 0.5)
         wk=(sum(x<=(k+1)/lambda[h])-sum(x<=k/lambda[h]))/100
         sum1[h]=sum1[h]+(lambda[h]/2)*constjk*wk*wj
      }
   }
}

让我解释一下。我想收集 200 个 sum1 值(这是第一个循环),对于每个 sum1 值,它是 的总和(lambda[h]/2)*constjk*wk*wj,因此是其他两个循环的总和。最繁琐的是N随h变化,所以我不知道如何向量化j-loop和k-loop。但当然我可以用lambda<-seq()and向量化 h 循环N<-ceiling(),这是我能做的最好的。有没有办法进一步简化代码?

4

2 回答 2

5

您的代码可以通过 3 个嵌套sapply调用完美验证。对于未经训练的人来说可能有点难以阅读,但它的本质是,我们不是一次添加一个值,而是一次sum1[h]计算最内层循环产生的所有项并将它们相加。

尽管此矢量化解决方案比您的三重for循环更快,但改进并不显着。如果您打算多次使用它,我建议您在 C 或 Fortran 中实现它(使用常规for循环),这样可以大大提高速度。请注意,尽管它具有很高的时间复杂度,并且会随着 值的增加而严重扩展lambda,最终达到一个点,即无论实现如何,都无法在合理的时间内进行计算。

lambda <- 2 + 1:200/12.5
sum1 <- sapply(lambda, function(l){
    N <- ceiling(l*max(x))
    sum(sapply(0:N, function(j){
        wj <- (sum(x <= (j+1)/l) - sum(x <= j/l))/100
        sum(sapply(0:N, function(k){
            constjk <- dbinom(k, j + k, 0.5)
            wk <- (sum(x <= (k+1)/l) - sum(x <= k/l))/100
            l/2*constjk*wk*wj
        }))
    }))
})

顺便说一句,您不需要预定义变量,如h, j,和. 特别是因为不是在矢量化时,因为在馈入的函数中对它们的赋值将创建具有相同名称的覆盖局部变量(忽略您预先定义的变量)。kwjwksapply

于 2012-11-09T12:39:47.270 回答
2

让我们将您的模拟包装在一个函数中并对其计时:

sim1 <- function(num=20){
  set.seed(42)
  x<-rlnorm(100,0,1.6)
  j=0
  k=0
  i=0
  h=0
  lambda<-rep(0,num)
  sum1<-rep(0,num)
  constjk=0
  wj=0
  wk=0

  for (h in 1:num)
  {
    lambda[h]=2+h/12.5
    N=ceiling(lambda[h]*max(x))
    for (j in 0:N)
    {
      wj=(sum(x<=(j+1)/lambda[h])-sum(x<=j/lambda[h]))/100
      for (k in 0:N)
      {
        set.seed(42)
        constjk=dbinom(k, j + k, 0.5)
        wk=(sum(x<=(k+1)/lambda[h])-sum(x<=k/lambda[h]))/100
        sum1[h]=sum1[h]+(lambda[h]/2)*constjk*wk*wj
      }
    }
  }

  sum1
}

system.time(res1 <- sim1())
#   user  system elapsed 
#    5.4     0.0     5.4

现在让我们让它更快:

sim2 <- function(num=20){
  set.seed(42) #to make it reproducible
  x <- rlnorm(100,0,1.6)

  h <- 1:num
  sum1 <- numeric(num)
  lambda <- 2+1:num/12.5
  N <- ceiling(lambda*max(x))

  #functions for wj and wk
  wjfun <- function(x,j,lambda,h){
    (sum(x<=(j+1)/lambda[h])-sum(x<=j/lambda[h]))/100
  }
  wkfun <- function(x,k,lambda,h){
    (sum(x<=(k+1)/lambda[h])-sum(x<=k/lambda[h]))/100
  }

  #function to calculate values of sum1
  fun1 <- function(N,h,x,lambda) {
    sum1 <- 0
    set.seed(42) #to make it reproducible
    #calculate constants using outer
    const <- outer(0:N[h],0:N[h],FUN=function(j,k) dbinom(k, j + k, 0.5))
    wk <- numeric(N[h]+1)
    #loop only once to calculate wk
    for (k in 0:N[h]){
      wk[k+1] <- (sum(x<=(k+1)/lambda[h])-sum(x<=k/lambda[h]))/100 
    }

    for (j in 0:N[h])
    {
      wj <- (sum(x<=(j+1)/lambda[h])-sum(x<=j/lambda[h]))/100
      for (k in 0:N[h])
      {
        sum1 <- sum1+(lambda[h]/2)*const[j+1,k+1]*wk[k+1]*wj
      }
    }
    sum1
  }

  for (h in 1:num)
  {
    sum1[h] <- fun1(N,h,x,lambda)
  }  
  sum1
}

system.time(res2 <- sim2())
#user  system elapsed 
#1.25    0.00    1.25 

all.equal(res1,res2)
#[1] TRUE

@Backlin 的代码(有 20 次交互)的时间进行比较:

   user  system elapsed 
   3.30    0.00    3.29 

如果这仍然太慢并且您不能或不想使用另一种语言,那么还有可能并行化。据我所知,外循环是令人尴尬的平行。有一些很好的和简单的并行化包。

于 2012-11-09T14:13:21.890 回答