1

我正在使用 CoreNLP 的命名实体识别注释器。

我的问题是我不想将相对日期识别为实体。我的目标是将日期与事件联系起来

一些有趣的日期是 1997 年 2 月 18 日、7 月 20 日、1992 年,距今天还有 4 天和 13 日星期一。

在这个例子中,我想突出显示“1997 年 2 月 18 日”、“7 月 20 日”和“1992 年”。即使其中一些日期不完整,它们仍可用于搜索事件。

另一方面,“从今天起 4 天”和“13 号星期一”对我来说并不有趣:原因是第一个是相对于当前日期(或文本编写的日期),而第二个太笼统了。

有没有一种简单的方法来告诉 NER 注释器丢弃相对日期?

谢谢

4

1 回答 1

1

我找到了以下解决方案,在我的情况下效果很好。

每个表示时间/日期命名实体的标记都有一个包含其规范化形式的注释字段。

我想识别的绝对日期将具有遵循以下模式的规范化形式:

  • 1997 年 2 月 18 日 -> 1997/02/18
  • 7 月 20 日 -> XXXX/07/20
  • 1992 -> 1992

使用 REGEX 可以丢弃没有像这样的规范化形式的注释。

(\d{4}|X{4})((\/\d{2}(\/\d{2})?)?)
于 2018-03-10T20:10:31.367 回答