我想做的是解析原始自然文本并找到所有描述日期的短语。
我有一个相当大的语料库,所有对日期的引用都标记了:
I met him <date>yesterday</date>.
Roger Zelazny was born <date>in 1937</date>
He'll have a hell of a hangover <date>tomorrow morning</date>
我不想解释日期短语,只需找到它们。他们是约会的事实是无关紧要的(在现实生活中他们甚至不是约会,但我不想让你厌烦细节),基本上它只是一组开放式的可能值。值本身的语法可以近似为上下文无关,但是手动构建非常复杂,并且随着复杂性的增加,越来越难以避免误报。
我知道这有点遥不可及,所以我不希望存在开箱即用的解决方案,但我可以使用哪些技术或研究?