1

我正在使用 OpenNLP 模型进行名称实体识别。

我正在传递句子,我想在其中识别单词。Open NLP 需要一个 String [] 变量,因此我将我的 String 拆分为以空格分隔的单词。

我面临识别日期的问题。例如,如果字符串包含日期:2012 年 1 月 7 日,我将字符串拆分为单词,“7”、“Jan”和“2012”将被分隔为 3 个不同的单词。虽然它们被识别为日期,但 3 个不同的标记对我来说没有意义进行进一步处理。我怎么可能拆分我的字符串,以便可以将“2 Jan 2012”视为一个字符串...... 2012 年 1 月 7 日是一种格式......有时它也是 2012 年 1 月 7 日。日期也能识别我输入的时间格式:比如 12:18pm

NER 时间模型无法识别 12:18pm 或 09:52:52 的时间。它接受什么样的时间格式?

4

1 回答 1

2

Apache OpenNLP 日期和时间模型是统计的,从语料库训练而来。它将从上下文中识别日期和时间,而不仅仅是从格式中。

如果您有特定需求,您可以创建自己的语料库并训练您自己的 OpenNLP Name Finder 模型。

OpenNLP Name Finder 还支持在训练时进行一些自定义。也许如果您创建一个语料库,并添加一些基于正则表达式的功能,您可以改善您的结果。

于 2012-05-03T01:39:53.037 回答