java - Apache OpenNLP Part of Speech Tagger：在哪个数据集上训练过？

Question

我正在使用 Apache OpenNLP 词性标注器在文本集合中进行词类识别。我正在尝试评估标记器的性能，我想知道它可能已经训练过哪些数据？存在的英语模型名称没有暗示使用的训练数据。

Apache OpenNLP 文档提到了几个可能被用于训练 POS-Tagger 的语料库。 http://opennlp.apache.org/documentation/manual/opennlp.html#tools.corpora

有谁知道如何找出英语 POS 模型已经训练了哪些训练数据？

score 0 · Accepted Answer

是的，你是对的，Opennlp 中使用了几个语料库。
但是，如果您会看到OpenNLP 模型页面，就会提到使用哪个数据集来训练模型，如下所示。

在此处输入图像描述

1 回答 1