0

我正在处理一些Date专栏并试图清理明显不正确的日期。我已经使用这里safe.ifelse提到的函数编写了一个函数。

这是我的玩具数据集:

df1 <- data.frame(id = 1:25
    , month1 = seq(as.Date('2012-01-01'), as.Date('2014-01-01'), by = 'month'  )
    , month2 = seq(as.Date('2012-01-01'), as.Date('2014-01-01'), by = 'month'  )
    , month3 = seq(as.Date('2012-01-01'), as.Date('2014-01-01'), by = 'month'  )
    , letter1 = letters[1:25]
    )

这适用于单列:

df1$month1 <- safe.ifelse(df1$month1 > as.Date('2013-10-01'), as.Date('2013-10-01'), df1$month1)

由于我有多个列,我想使用一个函数并申请Date一次处理所有列:

capDate <- function(x){
today1 <- Sys.Date()
    safe.ifelse <- function(cond, yes, no){ class.y <- class(yes)
                                  X <- ifelse(cond,yes,no)
                                  class(X) <-class.y; return(X)}

    x <- safe.ifelse(as.Date(x) > as.Date(today1), as.Date(today1), as.Date(x))
 }

但是,当我尝试使用sapply()

df1[,dateCols1] <- sapply(df1[,dateCols1], capDate)

或者apply()

df1[,dateCols1] <- apply(df1[,dateCols1],2, capDate))

Date失去其Date格式。我发现解决这个问题的唯一方法是使用lapply()然后转换回data.frame(). 谁能解释一下?

df1[,dateCols1] <- as.data.frame(lapply(df1[,dateCols1], capDate))
4

1 回答 1

7

两者都sapplyapply结果转换为矩阵。 as.data.frame(lapply(...))是一种遍历数据框列的安全方法。

as.data.frame(
  lapply(
    df1, 
    function(column) 
    {
      if(inherits(column, "Date")) 
      {
        pmin(column, Sys.Date())
      } else column
    }
  )
)

使用ddplyfrom会更干净一些plyr

library(plyr)
ddply(
  df1, 
  .(id), 
  colwise(
    function(column) 
    {
      if(inherits(column, "Date")) 
      { 
        pmin(column, Sys.Date()) 
      } else column
    }
  )
)
于 2013-10-22T10:55:10.910 回答