我正在使用 Apache OpenNLP 词性标注器在文本集合中进行词类识别。我正在尝试评估标记器的性能,我想知道它可能已经训练过哪些数据?存在的英语模型名称没有暗示使用的训练数据。
Apache OpenNLP 文档提到了几个可能被用于训练 POS-Tagger 的语料库。 http://opennlp.apache.org/documentation/manual/opennlp.html#tools.corpora
有谁知道如何找出英语 POS 模型已经训练了哪些训练数据?
我正在使用 Apache OpenNLP 词性标注器在文本集合中进行词类识别。我正在尝试评估标记器的性能,我想知道它可能已经训练过哪些数据?存在的英语模型名称没有暗示使用的训练数据。
Apache OpenNLP 文档提到了几个可能被用于训练 POS-Tagger 的语料库。 http://opennlp.apache.org/documentation/manual/opennlp.html#tools.corpora
有谁知道如何找出英语 POS 模型已经训练了哪些训练数据?
是的,你是对的,Opennlp 中使用了几个语料库。
但是,如果您会看到OpenNLP 模型页面,就会提到使用哪个数据集来训练模型,如下所示。