我有一个包含许多缺失观察的数据集,我使用 Amelia 包来创建估算数据集。我想知道是否可以在每个链上使用不同的数据集并行运行相同的模型,并将结果组合到一个 Stan 对象中。

# Load packages

# Load built-in data

# Create 2 imputed data sets (polity is an ordinal variable)
df.imp <- amelia(freetrade, m = 2, ords = "polity")

# Check the first data set

# Run the model in Stan
code <- '
    data {
int<lower=0> N;          
vector[N] tariff;     
vector[N] polity;      
    parameters {
real b0;                  
real b1;           
real<lower=0> sigma;       
    model {
b0 ~ normal(0,100);  
b1 ~ normal(0,100); 
tariff ~ normal(b0 + b1 * polity, sigma);    

# Create a list from the first and second data sets
df1 <- list(N = nrow(df.imp$imputations[[1]]),
            tariff = df.imp$imputations[[1]]$tariff,
            polity = df.imp$imputations[[1]]$polity)

df2 <- list(N = nrow(df.imp$imputations[[2]]),
            tariff = df.imp$imputations[[2]]$tariff,
            polity = df.imp$imputations[[2]]$polity)

# Run the model
m1 <- stan(model_code = code, data = df1, chains = 1, iter = 1000) 

我的问题是如何同时在两个数据集上运行最后一行代码,运行 2 个链并将输出与相同的 stan() 函数结合起来。有什么建议么?


您可以单独运行模型,然后使用 sflist2stanfit() 组合它们。


seed <- 12345
s1 <- stan_model(model_code = code) # compile the model

m1 <- sampling(object = s1, data = df1, chains = 1,
               seed = seed, chain_id = 1, iter = 1000) 
m2 <- sampling(object = s1, data = df2, chains = 1,
               seed = seed, chain_id = 2, iter = 1000)

f12 <- sflist2stanfit(list(m1, m2))
您将不得不在 R 中使用其中一个包进行并行计算。根据这篇文章,它应该可以工作: RStan 会在超级计算机上运行吗?

这是一个可能有效的示例(我将此代码与 JAGS 一起使用,稍后将与 Stan 一起测试它):

library( doParallel )
cl <- makeCluster( 2 ) # for 2 processes
registerDoParallel( cl )


# make a function to combine the results
stan.combine <- function(...) { return( sflist2stanfit( list(...) )  ) }

mydatalist <- list(df1 , df2)    
myseeds <- c(123, 456)

# now start the chains
nchains <- 2
m_both <- foreach(i=1:nchains , 
              .packages = c( 'rstan' ), 
              .combine = "stan.combine") %dopar% {
             result <- stan(model_code = code, 
                   data = mydatalist[[i]], # use the right dataset
                   seed=myseeds[i],        # use different seeds
                   chains = 1, iter = 1000) 
             return(result) }

让我知道它是否适用于 Stan。正如我所说,我还没有测试它。

