nlp - OpenNLP 与 StanfordNLP 中的词性标注

Question

我是词性 (pos) 标记的新手，我正在对文本文档进行 pos 标记。我正在考虑为此使用 OpenNLP 或 StanfordNLP。对于 StanfordNLP，我使用的是 aMaxentTagger并且我使用english-left3words-distsim.tagger它来训练它。在 OpenNLP 中，我使用POSModel并使用en-pos-maxent.bin. 这两个标注器 (MaxentTagger和POSTagger) 和训练集 (english-left3words-distsim.tagger和en-pos-maxent.bin) 有何不同，哪一个通常会给出更好的结果。

score 1 · Accepted Answer

两个词性标注器都基于最大熵机器学习。它们在用于确定 POS 标签的参数/特征上有所不同。例如，StanfordNLP pos tagger 使用：“ (i) 更广泛地处理未知单词的大写；(ii) 消除动词时态歧义的特征；(iii) 消除介词和副词中的助词歧义的特征”（阅读更多在论文中）。OpenNLP 的特性记录在我目前不知道的其他地方。

这些模型可能是在不同的语料库上训练的。

一般来说，很难说哪个 NLP 工具在质量方面表现更好。这实际上取决于您的域，您需要测试您的工具。有关更多信息，请参阅以下论文：

为了实际解决这个问题，我正在开发一个Maven 插件和一个注释工具来更有效地创建特定领域的 NLP 模型。

nlp - OpenNLP 与 StanfordNLP 中的词性标注

1 回答 1

Related

Reference