0

我正在构建一个循环超过 10-1000 个文件的复杂代码,并根据 6 个分组列计算每个文件的一大堆汇总统计信息。一切正常,但是在双重应用结构中,我还尝试从文件名中提取日期并将其转换为日期格式,并将其作为列添加到每个数据帧中。

在我的完整代码中没有日期转换,以及在这个示例代码中它可以正常工作,但是在其中进行转换时,它似乎会导致循环突然产生奇怪的错误。

我已经尝试了几十种方法来使它工作。通常单个字符串到日期格式对我来说不是问题,但是如何在这个循环结构中进行这项工作?

一开始我以为问题是日期格式转换没有用,但是貌似可以用,但是导致rbindlist代码出现问题。

Error in rbindlist(ClusterResultlist[[cl]]) : 
  Column 2 of item 1 is length 11, inconsistent with first column of that item which is length 10. rbind/rbindlist doesn't recycle as it already expects each item to be a uniform list, data.frame or data.table 

我不知道为什么它声称长度不同,或者如何解决它。

问题:如何在循环内或之后将字符串转换为日期格式。

我的代码:

myfiles <- list("PICO in situ 55 10 100 100 100 2016-05-06 19u03_clustered_newtest1.csv", "PICO in situ 55 10 100 100 100 2016-05-07 19u03_clustered_newtest1.csv")

## list of clustering columns to summarize over
Clusterlist <- c('Cluster_FP1', 'Cl_names_FP1', 'GR_names_FP1', 'Cluster_FP2', 'Cl_names_FP2', 'GR_names_FP2') # 
ClusterResultlist <- vector("list", length(Clusterlist))
names(ClusterResultlist) <- Clusterlist

SummarizeData <- function(y){
  lapply(Clusterlist, function(z) { 
    datetime <- substr(y, nchar(y) -38, nchar(y) -23)
    FullCounts <- data.frame(DummyIndex = 1:10)
    FullCounts$DateTime <- strptime(datetime,format = "%Y-%m-%d %Hu%M")
    ClusterResultlist[[z]][[y]] <<- FullCounts
})}

# run the function over all files
mapply(SummarizeData, y = myfiles)

# create 6 main dataframes out of all sub data frames
lapply(Clusterlist, function(cl) { ClusterResultlist[[cl]] <<- rbindlist(ClusterResultlist[[cl]])  })

更新: 我们现在有两个(部分)解决方案,但它们不会像 rbindlist 那样快,我相信我的实际大数据对象。

我试图在最终 ClusterResultList 的循环之外进行转换,但这会引发此错误:

lapply(Clusterlist, function(cl) { ClusterResultlist[[cl]] <<- rbindlist(ClusterResultlist[[cl]])  })

lapply(Clusterlist, function(cl) { ClusterResultlist[[cl]]$DateTime <<- strptime(ClusterResultlist[[cl]]$DateTime,format = "%Y-%m-%d %Hu%M") })  



 In `[<-.data.table`(x, j = name, value = value) :
  Supplied 11 items to be assigned to 20 items of column 'DateTime' (recycled leaving remainder of 9 items).
4

2 回答 2

1

lubridate在修复问题的帮助下修复日期rblindlist

代替:

FullCounts$DateTime <- strptime(datetime,format = "%Y-%m-%d %Hu%M")

和:

FullCounts$DateTime <- lubridate::ymd_hms(strptime(datetime,format = "%Y-%m-%d %Hu%M"))
于 2018-04-10T14:54:57.243 回答
1

使用rbind而不是怎么样rbindlist

lapply(Clusterlist, function(cl) ClusterResultlist[[cl]] <<- do.call(rbind, ClusterResultlist[[cl]]))
于 2018-04-10T13:31:42.403 回答