13

我有一个可变长度的字符串,我想给出一个格式strptime,以便忽略字符串的其余部分。让我举例说明。我有类似的东西

9/4/2013,00:00:00,7.8,7.4,9.53
10/4/2013,00:00:00,8.64,7.4,9.53

我想要一种使命令strptime(line,format)能够读取这些行的格式。类似的东西format='%d/%m/%Y,%H:%M:%S*',虽然我知道这不起作用。我想我的问题有点类似于这个问题,但是没有答案可以帮助我,而且我的问题有点糟糕,因为我的字符串的全长可能会有所不同。我有一种感觉dateutil可以解决我的问题,但我找不到可以解决问题的方法。

我可能可以做类似的事情strptime(''.join(line.split(',')[:2]),format),但我不想诉诸于与用户相关的问题。

4

4 回答 4

21

您不能datetime.strptime()忽略部分输入。您唯一的选择实际上是首先拆分额外的文本。

所以是的,你必须拆分并重新加入你的字符串:

format = '%d/%m/%Y,%H:%M:%S'
datetime.strptime(','.join(line.split(',', 2)[:2]), format)

或寻找其他方法来提取信息。您可以使用正则表达式,例如:

datetime_pattern = re.compile(r'(\d{1,2}/\d{1,2}/\d{4},\d{2}:\d{2}:\d{2})')
format = '%d/%m/%Y,%H:%M:%S'
datetime.strptime(datetime_pattern.search(line).group(), format)
于 2015-03-26T17:27:47.247 回答
2

要构建格式字符串而不拆分时间字符串并丢弃额外的文本,只需在格式字符串中包含额外的文本。t[t.index(',',t.index(',') + 1):]是额外的文字。

from datetime import datetime
l = ['9/4/2013,00:00:00,7.8,7.4,9.53', '10/4/2013,00:00:00,8.64,7.4,9.53']
for t in l:
    print datetime.strptime(t,'%d/%m/%Y,%H:%M:%S'+t[t.index(',',t.index(',')+1):])

如果字符串中有'%'可以用空字符串代替。

l = ['9/4/2013,00:00:00,7.8,7.4,9.53', '10/4/2013,00:00:00,8.64,7.4,9.53']
for t in l:
    t = t.replace('%','')
    fmt = '%d/%m/%Y,%H:%M:%S' + t[t.index(',',t.index(',')+1):]
    print datetime.strptime(t, fmt)

或者使用字符串切片和静态格式字符串,

for t in l:
        print datetime.strptime(t[:t.find(',',t.find(',')+1)],'%d/%m/%Y,%H:%M:%S')

2013-04-09 00:00:00
2013-04-10 00:00:00

于 2015-03-26T20:31:31.043 回答
1

查看datetime-glob,这是我们开发的一个模块,用于从文件列表中解析日期/时间。您可以datetime_glob.PatternSegment用来解析任意字符串:

>>> import datetime_glob
>>> patseg = datetime_glob.parse_pattern_segment('%-d/%-m/%Y,%H:%M:%S*')
>>> match = datetime_glob.match_segment('9/4/2013,01:02:03,7.8,7.4,9.53',
                                        patseg)
>>> match.as_datetime()
datetime.datetime(2013, 4, 9, 1, 2, 3)
于 2018-03-25T13:31:54.950 回答
0

也使用正则表达式,因为 pythondatetime不允许忽略字符,此版本使用无捕获组(抱歉,示例与您的问题无关):

import datetime, re

date_re = re.compile(r'([^.]+)(?:\.[0-9]+) (\+[0-9]+)')
date_str = "2018-09-06 04:15:18.334232115 +0000"

date_str = " ".join(date_re.search(date_str).groups())

date_obj = datetime.datetime.strptime(date_str, "%Y-%m-%d %H:%M:%S %z")

像@marjin 建议的那样使用正则表达式要好得多,因此您的代码更易于理解且易于更新。

于 2018-10-08T10:20:01.400 回答