0

我是文本挖掘和 NLP 的新手。我正在尝试使用命名实体识别 (NER) (Stanford Named Entity Tagger) 从给定文本中提取日期。我正在使用斯坦福 NLP http://nlp.stanford.edu:8080/ner/process和 GATE ANNIE http://services.gate.ac.uk/annie/提供的在线演示

此演示无法将完整的“上周日”、“下周一”、“本月末”“直到本周日晚上”等文本识别为日期。仅星期日或星期一对确定日期没有用处。是否有任何选项可以提取给定示例文本提到的实际文本?

示例文本:

使用 Puma 犒劳自己,因为它提供 Flat 50% 折扣。快点优惠有效期至本周日。开心购物。

提取日期:25-08-2013(考虑到今天是 19-08-2013。日期格式可以是任何东西)

任何库都提供这种日期识别功能,或者是否可以构建自定义模型来识别示例文本中给出的日期?

4

2 回答 2

1

GATE 中的Tagger_DateNormalizer插件可以做到这一点,默认情况下,它会将相对日期表达式与今天的日期进行标准化。您可以使用参数覆盖它以sourceOfDocumentDate从文档功能或管道中上一步创建的注释中获取参考日期,而不是使用当前日期(例如,如果您正在处理新闻文章,您可能希望标准化根据发布日期而不是管道运行日期)。

虽然该插件被称为日期“规范化器”,但它实际上是一个“标记器和规范化器”——它在文本中查找日期表达式并使用规范化值对其进行注释,而不是获取预先存在的Date注释列表并规范化那些.

于 2013-08-19T15:59:55.160 回答
1

斯坦福CoreNLP中的 SUTime 可以做时间识别。该页面包含示例代码,并在此处提供在线演示。

相关问题:将斯坦福时间标记器用于大数据是否好?

于 2013-09-07T03:30:03.533 回答