r - 由于循环中的字符串到日期转换导致的 Rbindlist 错误

Question

我正在构建一个循环超过 10-1000 个文件的复杂代码，并根据 6 个分组列计算每个文件的一大堆汇总统计信息。一切正常，但是在双重应用结构中，我还尝试从文件名中提取日期并将其转换为日期格式，并将其作为列添加到每个数据帧中。

在我的完整代码中没有日期转换，以及在这个示例代码中它可以正常工作，但是在其中进行转换时，它似乎会导致循环突然产生奇怪的错误。

我已经尝试了几十种方法来使它工作。通常单个字符串到日期格式对我来说不是问题，但是如何在这个循环结构中进行这项工作？

一开始我以为问题是日期格式转换没有用，但是貌似可以用，但是导致rbindlist代码出现问题。

Error in rbindlist(ClusterResultlist[[cl]]) : 
  Column 2 of item 1 is length 11, inconsistent with first column of that item which is length 10. rbind/rbindlist doesn't recycle as it already expects each item to be a uniform list, data.frame or data.table

我不知道为什么它声称长度不同，或者如何解决它。

问题：如何在循环内或之后将字符串转换为日期格式。

我的代码：

myfiles <- list("PICO in situ 55 10 100 100 100 2016-05-06 19u03_clustered_newtest1.csv", "PICO in situ 55 10 100 100 100 2016-05-07 19u03_clustered_newtest1.csv")

## list of clustering columns to summarize over
Clusterlist <- c('Cluster_FP1', 'Cl_names_FP1', 'GR_names_FP1', 'Cluster_FP2', 'Cl_names_FP2', 'GR_names_FP2') # 
ClusterResultlist <- vector("list", length(Clusterlist))
names(ClusterResultlist) <- Clusterlist

SummarizeData <- function(y){
  lapply(Clusterlist, function(z) { 
    datetime <- substr(y, nchar(y) -38, nchar(y) -23)
    FullCounts <- data.frame(DummyIndex = 1:10)
    FullCounts$DateTime <- strptime(datetime,format = "%Y-%m-%d %Hu%M")
    ClusterResultlist[[z]][[y]] <<- FullCounts
})}

# run the function over all files
mapply(SummarizeData, y = myfiles)

# create 6 main dataframes out of all sub data frames
lapply(Clusterlist, function(cl) { ClusterResultlist[[cl]] <<- rbindlist(ClusterResultlist[[cl]])  })

更新： 我们现在有两个（部分）解决方案，但它们不会像 rbindlist 那样快，我相信我的实际大数据对象。

我试图在最终 ClusterResultList 的循环之外进行转换，但这会引发此错误：

lapply(Clusterlist, function(cl) { ClusterResultlist[[cl]] <<- rbindlist(ClusterResultlist[[cl]])  })

lapply(Clusterlist, function(cl) { ClusterResultlist[[cl]]$DateTime <<- strptime(ClusterResultlist[[cl]]$DateTime,format = "%Y-%m-%d %Hu%M") })  



 In `[<-.data.table`(x, j = name, value = value) :
  Supplied 11 items to be assigned to 20 items of column 'DateTime' (recycled leaving remainder of 9 items).

score 1 · Accepted Answer

lubridate在修复问题的帮助下修复日期rblindlist。

代替：

FullCounts$DateTime <- strptime(datetime,format = "%Y-%m-%d %Hu%M")

和：

FullCounts$DateTime <- lubridate::ymd_hms(strptime(datetime,format = "%Y-%m-%d %Hu%M"))

score 1 · Accepted Answer

使用rbind而不是怎么样rbindlist？

lapply(Clusterlist, function(cl) ClusterResultlist[[cl]] <<- do.call(rbind, ClusterResultlist[[cl]]))

r - 由于循环中的字符串到日期转换导致的 Rbindlist 错误

2 回答 2

Related

Reference