python - 用python处理时间字符串的更快方法

Question

我有许多格式如下的日志文件：

2012-09-12 23:12:00 other logs here

我需要提取时间字符串并比较两个日志记录之间的时间增量。我这样做了：

for line in log:
    l = line.strip().split()
    timelist = [int(n) for n in re.split("[- :]", l[0]+' ' + l[1])]
    #now the timelist looks like [2012,9,12,23,12,0]

然后当我得到两条记录时

d1 = datetime.datetime(timelist1[0], timelist1[1], timelist1[2], timelist1[3], timelist1[4], timelist1[5])
d2 = datetime.datetime(timelist2[0], timelist2[1], timelist2[2], timelist2[3], timelist2[4], timelist2[5])
delta = (d2-d1).seconds

问题是它运行缓慢，有没有办法提高性能？提前谢谢。

score 2 · Accepted Answer

您可以摆脱正则表达式并使用map：

date_time = datetime.datetime

for line in log:
    date, time = line.strip().split(' ', 2)[:2]

    timelist = map(int, date.split('-') + time.split(':'))
    d = date_time(*timelist)

我认为 .split(' ', 2)会比仅仅.split()因为它只分裂两次而且只在空格上而不是在任何空格上更快。
map(int, l)比[int(x) for x in l]我上次检查时要快。
如果可以，请摆脱.strip().

score 1 · Accepted Answer

您可以完全使用正则表达式来完成它，这可能会更快。

find_time = re.compile("^(\d{4})-(\d{2})-(\d{2}) (\d{2}):(\d{2}):(\d{2})")

for line in log:
    timelist = find_time.match(line)
    if timelist:
        d = datetime.datetime(*map(int, timelist.groups()))

score 1 · Accepted Answer

您也可以尝试不使用正则表达式，使用可选参数split

(date, time, log) = line.split(" ", 2)
timerecord = datetime.datetime.strptime(date+" "+time, "%Y-%m-%d %H:%M:%S")

然后就是计算你的timedeltas连续timerecords之间的问题

python - 用python处理时间字符串的更快方法

3 回答 3

Related

Reference