我是词性 (pos) 标记的新手,我正在对文本文档进行 pos 标记。我正在考虑为此使用 OpenNLP 或 StanfordNLP。对于 StanfordNLP,我使用的是 aMaxentTagger
并且我使用english-left3words-distsim.tagger
它来训练它。在 OpenNLP 中,我使用POSModel
并使用en-pos-maxent.bin
. 这两个标注器 (MaxentTagger
和POSTagger
) 和训练集 (english-left3words-distsim.tagger
和en-pos-maxent.bin
) 有何不同,哪一个通常会给出更好的结果。
问问题
517 次
1 回答
1
两个词性标注器都基于最大熵机器学习。它们在用于确定 POS 标签的参数/特征上有所不同。例如,StanfordNLP pos tagger 使用:“ (i) 更广泛地处理未知单词的大写;(ii) 消除动词时态歧义的特征;(iii) 消除介词和副词中的助词歧义的特征”(阅读更多在论文中)。OpenNLP 的特性记录在我目前不知道的其他地方。
这些模型可能是在不同的语料库上训练的。
一般来说,很难说哪个 NLP 工具在质量方面表现更好。这实际上取决于您的域,您需要测试您的工具。有关更多信息,请参阅以下论文:
为了实际解决这个问题,我正在开发一个Maven 插件和一个注释工具来更有效地创建特定领域的 NLP 模型。
于 2015-10-19T09:04:34.867 回答