10

我有一些像这样的各种格式日期的字符向量

dates <- c("23/11/12", "20/10/2012", "22/10/2012" ,"23/11/12")

我想将这些转换为日期。我已经尝试了 lubridate 包中非常好的 dmy ,但这不起作用:

    dmy(dates)
[1] "0012-11-23 UTC" "2012-10-20 UTC" "2012-10-22 UTC" "0012-11-23 UTC"

它将 /12 年视为 0012。

所以我现在正在尝试正则表达式来选择每种类型并使用 as.Date() 单独转换为日期。但是,我尝试仅选择 dd/mm/yy 的正则表达式不起作用。

dates[grep('[0-9]{2}/[0-9]{2}/[0-9]{2,2}', dates)]

返回

[1] "23/11/12"   "20/10/2012" "22/10/2012" "23/11/12"

我认为 {2,2} 应该得到正好 2 个数字,而不是全部。我不太擅长正则表达式,因此将不胜感激。

谢谢

编辑

我实际上拥有的是三种不同类型的日期,如下所示

dates <- c("23-Jul-2013", "23/11/12", "20/10/2012", "22/10/2012" ,"23/11/12")

我想将这些转换为日期

parse_date_time(dates,c('dmy'))

给我

[1] "2013-07-23" "0012-11-23" "2012-10-20" "2012-10-22" "0012-11-23"

但是,这是错误的,0012 应该是 2012。我想要(一个相当简单的)解决方案。

我现在拥有的一个解决方案(感谢@plannapus)是使用正则表达式我实际上最终创建了这个函数,因为我仍然遇到一些情况下 lubridate 方法将 12 变成 0012

    asDateRegex <- function(dates, 
        #selects strings from the vector dates using regexes and converts these to Dates
        regexes = c('[0-9]{2}/[0-9]{2}/[0-9]{4}', #dd/mm/yyyy
            '[0-9]{2}/[0-9]{2}/[0-9]{2}$', #dd/mm/yy
            '[0-9]{2}-[[:alpha:]]{3}-[0-9]{4}'), #dd-mon-yyyy
        orders = 'dmy',
        ...){
        require(lubridate)
        new_dates <- as.Date(rep(NA, length(dates)))
        for(reg in regexes){
            new_dates[grep(reg, dates)] <- as.Date(parse_date_time(dates[grep(reg, dates)], order = orders))
        }
        new_dates
    }

asDateRegex (dates)
[1] "2012-10-20" "2013-07-23" "2012-11-23" "2012-10-22" "2012-11-23"

但这不是很优雅。有更好的解决方案吗?

4

6 回答 6

15

您可以使用parse_date_time来自lubridate

some.dates <- c("23/11/12", "20/10/2012", "22/10/2012" ,"23/11/12")
parse_date_time(some.dates,c('dmy'))
[1] "2012-11-23 UTC" "2012-10-20 UTC" "2012-10-22 UTC" "2012-11-23 UTC"

但是,请注意格式的顺序很重要:

some.dates <- c("20/10/2012","23/11/12",  "22/10/2012" ,"23/11/12")
parse_date_time(some.dates,c('dmY','dmy'))

[1] "2012-10-20 UTC" "2012-11-23 UTC" "2012-10-22 UTC" "2012-11-23 UTC"

编辑

内部parse_date_time正在使用guess_formats(我猜它使用了一些正则表达式):

guess_formats(some.dates,c('dmy'))
       dmy        dmy        dmy        dmy 
"%d/%m/%Y" "%d/%m/%y" "%d/%m/%Y" "%d/%m/%y" 

如评论中所述,您可以parse_date_time像这样使用:

as.Date(dates, format = guess_formats(dates,c('dmy')))
于 2013-10-17T11:22:05.813 回答
7

您可以根据输入的日期长度选择格式。

y <- ifelse(nchar(dates) == 8, "y", "Y")
as.Date(dates, format = paste0("%d/%m/%", y))
于 2013-10-17T12:14:21.817 回答
1

如果您真的想在正则表达式中执行此操作,您应该习惯于$表示在最后两位数字之后没有任何内容(即字符串结尾):

dates[grep('[0-9]{2}/[0-9]{2}/[0-9]{2}$', dates)]
[1] "23/11/12" "23/11/12"

否则,除了其他答案之外,您还可以在此处此处查看处理多种日期格式的其他方法。

于 2013-10-17T11:27:54.203 回答
1

对于未(尚未)在未接受的答案中解决的更一般情况,这是基本 R 方法。

dates <- c("23-Jul-2013", "23/11/12", "20/10/2012", "22/10/2012" ,"23/11/12")
fmts <- list('%d-%b-%Y', '%d/%m/%y', '%d/%m/%Y')
d <- mapply(as.Date, list(dates), fmts, SIMPLIFY=FALSE)
max.d <- do.call(function(...) pmax(..., na.rm=TRUE), d)
min.d <- do.call(function(...) pmin(..., na.rm=TRUE), d)
max.d[max.d > Sys.Date()] <- min.d[max.d > Sys.Date()]
max.d
# [1] "2012-11-23" "2012-10-20" "2012-10-22" "2012-11-23"
于 2013-10-17T13:21:14.460 回答
1

您可以使用strsplitandnchar获取年份为两个字符长的日期子向量:

> dates[sapply(strsplit(dates,"/"),function(x)nchar(x)[3]==2)]
[1] "23/11/12" "23/11/12"
于 2013-10-17T11:14:30.613 回答
1

在您最初尝试regex基于解决方案之后,您可以尝试gsub使用 this regexp,然后转换为您希望的任何日期时间格式...

#  Replace 4 digit years with two digit years
short <- gsub( "([0-9]{2})([0-9]{2})$" , "\\2" , dates )
#[1] "23/11/12" "20/10/12" "22/10/12" "23/11/12"


as.Date( short , format = "%d/%m/%y" )
#[1] "2012-11-23" "2012-10-20" "2012-10-22" "2012-11-23"
于 2013-10-17T11:26:33.600 回答