0

我是词性 (pos) 标记的新手,我正在对文本文档进行 pos 标记。我正在考虑为此使用 OpenNLP 或 StanfordNLP。对于 StanfordNLP,我使用的是 aMaxentTagger并且我使用english-left3words-distsim.tagger它来训练它。在 OpenNLP 中,我使用POSModel并使用en-pos-maxent.bin. 这两个标注器 (MaxentTaggerPOSTagger) 和训练集 (english-left3words-distsim.taggeren-pos-maxent.bin) 有何不同,哪一个通常会给出更好的结果。

4

1 回答 1

1

两个词性标注器都基于最大熵机器学习。它们在用于确定 POS 标签的参数/特征上有所不同。例如,StanfordNLP pos tagger 使用:“ (i) 更广泛地处理未知单词的大写;(ii) 消除动词时态歧义的特征;(iii) 消除介词和副词中的助词歧义的特征”(阅读更多在论文中)。OpenNLP 的特性记录在我目前不知道的其他地方。

这些模型可能是在不同的语料库上训练的。

一般来说,很难说哪个 NLP 工具在质量方面表现更好。这实际上取决于您的域,您需要测试您的工具。有关更多信息,请参阅以下论文:

为了实际解决这个问题,我正在开发一个Maven 插件和一个注释工具来更有效地创建特定领域的 NLP 模型。

于 2015-10-19T09:04:34.867 回答