可能有一个非常简单的解决方法,但是这里有......我正在尝试比较 R 中的两个日期向量(最初不是作为日期向量输入):如果第二个是 NA 并且第一个不是,则返回第一个值失踪; 如果第二个日期不丢失,则返回两个日期中最大的一个;如果两个值都缺失,则返回 NA。例如,对于下面显示的数据,我想lastdate
计算如下:
v1 v2 lastdate
1/2/2006 NA 1/2/2006
1/2/2006 12/2/2006 12/2/2006
NA NA NA
我写了一个公式来避免遍历每一行(这些数据中有 85K),如下所示:
lastdate <- function(lastdate1,lastdate2){
if (is.na(lastdate1)==T & is.na(lastdate2)==T) {NA}
else if (is.na(lastdate2)==T & !is.na(lastdate1)) {as.Date(lastdate1,format="%m/%d/%Y")}
else {max(as.Date(lastdate2,format="%m/%d/%Y"),as.Date(lastdate1,format="%m/%d/%Y"))}
}
dfbobs$leaveobsdate <- lastdate(as.Date(dfbobs$leavedate1,format="%m/%d/%Y"),as.Date(dfbobs$leavedate2,format="%m/%d/%Y"))
最后一行告诉它比较两个日期向量,但不太正确,因为我得到了错误
Warning messages:
1: In if (is.na(lastdate1) == T & is.na(lastdate2) == T) { :
the condition has length > 1 and only the first element will be used
2: In if (is.na(lastdate2) == T & !is.na(lastdate1)) { :
the condition has length > 1 and only the first element will be used
我敢肯定这很愚蠢,可能有一种更简单的方法可以做到这一点,但我们将不胜感激。
编辑:我现在尝试使用 ifelse 函数来处理向量,如建议的那样,但是如果我输入单个值(例如,lastdate("1/1/2006","1/2/ 2006")),如果我在数据帧向量上尝试它会产生 NA。代码如下:
lastdate <- function(lastdate1,lastdate2){
ifelse(is.na(lastdate1==T) & is.na(lastdate2==T), NA,
ifelse(is.na(lastdate2)==T & !is.na(lastdate1), as.Date(lastdate1,format="%m/%d/%Y"),
ifelse(!is.na(lastdate2) & !is.na(lastdate1), max(as.Date(lastdate2,format="%m/%d/%Y"),as.Date(lastdate1,format="%m/%d/%Y")),NA)))
}
dfbobs$leaveobsdate <- as.Date(lastdate(as.Date(dfbobs$leavedate1,format="%m/%d/%Y"),as.Date(dfbobs$leavedate2,format="%m/%d/%Y")),origin="1970-01-01")