r - 如何将 predict() 与 newdata =var_i 一起使用？

Question

我正在处理一个大数据，我把它分成块，所以它可以由 ram 管理，像这样：（这是一个我有更多块的例子）

var_1<-all_modell [c(1:150000)     ,]; save(var_1,file="~/var_1.Rdata");rm(var_1);
var_2<-all_modell [c(150001:300000),]; save(var_2,file="~/var_2.Rdata");rm(var_2);
var_3<-all_modell [c(300001:450000),]; save(var_3,file="~/var_3.Rdata");rm(var_3);

这个想法是每次迭代都会加载一个块，用于预测然后擦除，因此 ram 可以自由处理下一个块：

for (i in 1:n_chunks)
{
name<-sprintf('var_%i',i); path<-sprintf('~/var_%i.Rdata',i)
load(path)
predicted     <- predict(Model, newdata =name, type = "prob") #here is the problem
value         <- as.numeric(lapply(predicted,"[[",2))
namef         <- sprintf('~/predicted%i.Rdata',i)
save(value,file=namef)
rm(list= ls()[!(ls()%in% Model)])
}

我想知道的是如何通过newdata=name名称变化的地方......我也试过这个，但它没有用：

predicted <- predict(Model, parse(text=sprintf(sprintf('newdata=var_%i',i))), type="prob")

score 1 · Accepted Answer

用于get()执行此操作。这是一个最小的例子：

x <- 1:100

x_1 <- x[1:50]
x_2 <- x[51:100]

for(i in 1:2){
  var <- sprintf('x_%i',i)
  print(sum(get(var)))
}

这导致：

[1] 1275
[1] 3775

有关?get更多详细信息，请参阅。

score 0 · Accepted Answer

使用单独的环境来保存你的块而不是使用可能会更干净一些get（尽管这get是简单的答案，并且是常见问题解答 7.21 的一部分）。

您的代码的可能修改：

myenv <- new.env()

for (i in 1:n_chunks) {
  name<-sprintf('var_%i',i); path<-sprintf('~/var_%i.Rdata',i)
  load(path, env=myenv)
  predicted     <- predict(Model, newdata =myenv[[name]], type = "prob")
  value         <- as.numeric(lapply(predicted,"[[",2))
  namef         <- sprintf('~/predicted%i.Rdata',i)
  save(value,file=namef)
  rm(list= ls(env=myenv), envir=myenv)
}

r - 如何将 predict() 与 newdata =var_i 一起使用？

2 回答 2

Related

Reference