作为我正在从事的一个更大的个人项目的一部分,我试图从各种文本源中分离出内联日期。
例如,我有一个很大的字符串列表(通常采用英语句子或语句的形式),它们采用多种形式:
中央设计委员会会议 10/22 星期二 6:30 pm
Th 9/19 LAB:串行编码(第 2.2 节)
12 月 15 日将有另一场比赛,供今天无法参加的人使用。
工作簿 3(最低工资):截止日期为 9 月 18 日星期三晚上 11:59
他将于 9 月 15 日起飞。
虽然这些日期与自然文本一致,但它们本身都不是特定的自然语言形式(例如,没有“会议将在明天两周后”——都是明确的)。
作为对这种处理没有太多经验的人,最好的起点是什么?我已经研究了诸如dateutil.parser
module 和parsedatetime之类的东西,但是这些似乎是在您隔离了日期之后。
正因为如此,有没有什么好的方法来提取日期和无关的文本
input: Th 9/19 LAB: Serial encoding (Section 2.2)
output: ['Th 9/19', 'LAB: Serial encoding (Section 2.2)']
或类似的东西?看起来这种处理是由 Gmail 和 Apple Mail 等应用程序完成的,但是可以用 Python 实现吗?