我正在构建一个循环超过 10-1000 个文件的复杂代码,并根据 6 个分组列计算每个文件的一大堆汇总统计信息。一切正常,但是在双重应用结构中,我还尝试从文件名中提取日期并将其转换为日期格式,并将其作为列添加到每个数据帧中。
在我的完整代码中没有日期转换,以及在这个示例代码中它可以正常工作,但是在其中进行转换时,它似乎会导致循环突然产生奇怪的错误。
我已经尝试了几十种方法来使它工作。通常单个字符串到日期格式对我来说不是问题,但是如何在这个循环结构中进行这项工作?
一开始我以为问题是日期格式转换没有用,但是貌似可以用,但是导致rbindlist代码出现问题。
Error in rbindlist(ClusterResultlist[[cl]]) :
Column 2 of item 1 is length 11, inconsistent with first column of that item which is length 10. rbind/rbindlist doesn't recycle as it already expects each item to be a uniform list, data.frame or data.table
我不知道为什么它声称长度不同,或者如何解决它。
问题:如何在循环内或之后将字符串转换为日期格式。
我的代码:
myfiles <- list("PICO in situ 55 10 100 100 100 2016-05-06 19u03_clustered_newtest1.csv", "PICO in situ 55 10 100 100 100 2016-05-07 19u03_clustered_newtest1.csv")
## list of clustering columns to summarize over
Clusterlist <- c('Cluster_FP1', 'Cl_names_FP1', 'GR_names_FP1', 'Cluster_FP2', 'Cl_names_FP2', 'GR_names_FP2') #
ClusterResultlist <- vector("list", length(Clusterlist))
names(ClusterResultlist) <- Clusterlist
SummarizeData <- function(y){
lapply(Clusterlist, function(z) {
datetime <- substr(y, nchar(y) -38, nchar(y) -23)
FullCounts <- data.frame(DummyIndex = 1:10)
FullCounts$DateTime <- strptime(datetime,format = "%Y-%m-%d %Hu%M")
ClusterResultlist[[z]][[y]] <<- FullCounts
})}
# run the function over all files
mapply(SummarizeData, y = myfiles)
# create 6 main dataframes out of all sub data frames
lapply(Clusterlist, function(cl) { ClusterResultlist[[cl]] <<- rbindlist(ClusterResultlist[[cl]]) })
更新: 我们现在有两个(部分)解决方案,但它们不会像 rbindlist 那样快,我相信我的实际大数据对象。
我试图在最终 ClusterResultList 的循环之外进行转换,但这会引发此错误:
lapply(Clusterlist, function(cl) { ClusterResultlist[[cl]] <<- rbindlist(ClusterResultlist[[cl]]) })
lapply(Clusterlist, function(cl) { ClusterResultlist[[cl]]$DateTime <<- strptime(ClusterResultlist[[cl]]$DateTime,format = "%Y-%m-%d %Hu%M") })
In `[<-.data.table`(x, j = name, value = value) :
Supplied 11 items to be assigned to 20 items of column 'DateTime' (recycled leaving remainder of 9 items).