python - 如何从 Python（或其他语言）中的文本块中解析多个日期

Question

我有一个包含多个日期值的字符串，我想将它们全部解析出来。该字符串是自然语言，所以到目前为止我发现的最好的东西是dateutil。

不幸的是，如果一个字符串中有多个日期值，dateutil 会抛出一个错误：

>>> s = "I like peas on 2011-04-23, and I also like them on easter and my birthday, the 29th of July, 1928"
>>> parse(s, fuzzy=True)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/usr/lib/pymodules/python2.7/dateutil/parser.py", line 697, in parse
    return DEFAULTPARSER.parse(timestr, **kwargs)
  File "/usr/lib/pymodules/python2.7/dateutil/parser.py", line 303, in parse
    raise ValueError, "unknown string format"
ValueError: unknown string format

关于如何解析长字符串中的所有日期的任何想法？理想情况下，会创建一个列表，但如果需要，我可以自己处理。

我正在使用 Python，但在这一点上，其他语言可能没问题，如果他们完成工作的话。

PS - 我想我可以在中间递归地分割输入文件并尝试，再试一次，直到它工作，但这是一个黑客的地狱。

score 18 · Accepted Answer

看着它，最简单的方法是修改 dateutil解析器以具有模糊多重选项。

parser._parse获取您的字符串，将其标记化_timelex，然后将标记与parserinfo.

在这里，如果令牌与中的任何内容都不匹配parserinfo，则解析将失败，除非fuzzy为 True。

我建议您在没有任何已处理的时间标记时允许不匹配，然后当您遇到不匹配时，在该点处理解析的数据并再次开始查找时间标记。

不应该花太多力气。

更新

在您等待补丁推出时...

这有点 hacky，使用库中的非公共函数，但不需要修改库，也不是反复试验。如果您有任何可以变成浮点数的单独令牌，您可能会误报。您可能需要对结果进行更多过滤。

from dateutil.parser import _timelex, parser

a = "I like peas on 2011-04-23, and I also like them on easter and my birthday, the 29th of July, 1928"

p = parser()
info = p.info

def timetoken(token):
  try:
    float(token)
    return True
  except ValueError:
    pass
  return any(f(token) for f in (info.jump,info.weekday,info.month,info.hms,info.ampm,info.pertain,info.utczone,info.tzoffset))

def timesplit(input_string):
  batch = []
  for token in _timelex(input_string):
    if timetoken(token):
      if info.jump(token):
        continue
      batch.append(token)
    else:
      if batch:
        yield " ".join(batch)
        batch = []
  if batch:
    yield " ".join(batch)

for item in timesplit(a):
  print "Found:", item
  print "Parsed:", p.parse(item)

产量：

发现：2011 04 23
解析：2011-04-23 00:00:00
发现时间：1928 年 7 月 29 日
解析：1928-07-29 00:00:00

迪特的更新

Dateutil 2.1 似乎是为了与 python3 兼容而编写的，并使用一个名为six. 它有些不对劲，它没有将str对象视为文本。

如果您将字符串作为 unicode 或类似文件的对象传递，则此解决方案适用于 dateutil 2.1：

from cStringIO import StringIO
for item in timesplit(StringIO(a)):
  print "Found:", item
  print "Parsed:", p.parse(StringIO(item))

如果要在 parserinfo 上设置选项，请实例化 parserinfo 并将其传递给 parser 对象。例如：

from dateutil.parser import _timelex, parser, parserinfo
info = parserinfo(dayfirst=True)
p = parser(info)

score 6 · Accepted Answer

当我离线时，我对昨天在这里发布的答案感到困扰。是的，它完成了这项工作，但它不必要地复杂且效率极低。

这是封底版本，应该做得更好！

import itertools
from dateutil import parser

jumpwords = set(parser.parserinfo.JUMP)
keywords = set(kw.lower() for kw in itertools.chain(
    parser.parserinfo.UTCZONE,
    parser.parserinfo.PERTAIN,
    (x for s in parser.parserinfo.WEEKDAYS for x in s),
    (x for s in parser.parserinfo.MONTHS for x in s),
    (x for s in parser.parserinfo.HMS for x in s),
    (x for s in parser.parserinfo.AMPM for x in s),
))

def parse_multiple(s):
    def is_valid_kw(s):
        try:  # is it a number?
            float(s)
            return True
        except ValueError:
            return s.lower() in keywords

    def _split(s):
        kw_found = False
        tokens = parser._timelex.split(s)
        for i in xrange(len(tokens)):
            if tokens[i] in jumpwords:
                continue 
            if not kw_found and is_valid_kw(tokens[i]):
                kw_found = True
                start = i
            elif kw_found and not is_valid_kw(tokens[i]):
                kw_found = False
                yield "".join(tokens[start:i])
        # handle date at end of input str
        if kw_found:
            yield "".join(tokens[start:])

    return [parser.parse(x) for x in _split(s)]

示例用法：

>>> parse_multiple("I like peas on 2011-04-23, and I also like them on easter and my birthday, the 29th of July, 1928")
[datetime.datetime(2011, 4, 23, 0, 0), datetime.datetime(1928, 7, 29, 0, 0)]

可能值得注意的是，它的行为与dateutil.parser.parse处理空/未知字符串时略有不同。Dateutil 将返回当前日期，同时parse_multiple返回一个空列表，恕我直言，这是人们所期望的。

>>> from dateutil import parser
>>> parser.parse("")
datetime.datetime(2011, 8, 12, 0, 0)
>>> parse_multiple("")
[]

PS 刚刚发现了MattH 的更新答案，它做了非常相似的事情。

score 0 · Accepted Answer

我认为如果你把“单词”放在一个数组中，它应该可以解决问题。有了它，您可以验证它是否是日期，并放入一个变量。

一旦你有了日期，你应该使用日期时间库。

score 0 · Accepted Answer

为什么不编写一个涵盖日期可能出现的所有可能形式的正则表达式模式，然后启动正则表达式来探索文本？我假设没有几十种方式来表达一个字符串中的日期。

唯一的问题是收集日期表达式的最大值

python - 如何从 Python（或其他语言）中的文本块中解析多个日期

4 回答 4

Related

Reference