5

Brill Tagger 的弱点和优势是什么?您能建议对标记器进行一些可能的改进吗?

4

2 回答 2

7

Brill 标记器的最大弱点是训练阶段所需的时间(在此处查看 ACOPOST 的时间戳或尝试使用NLTK来实现一个以获得想法)。请记住,您应该始终将 Brill 标记器视为在一系列标记系统中使用的最后一个标记器(对于简单的标记,我通常使用并在 HMM 标记器的输出上训练 Brill 标记器)。除了使训练阶段变得更长之外,单独使用 Brill 标记器通常会导致非常大的、通常重叠且有时“不正确”的规则集(即,在“真实”标记上下文中破坏许多正确标记的规则)。

Brill 标注器的最大优势在于它的模型是有意义的,尤其是当您像通常那样以人类可读的格式存储规则时。手动检查统计标注器的模型很繁琐、容易出错且不是很有用,而一组转换规则不仅可以手动理解和调整,甚至可以由以前没有 NLP 经验的人来完成(事实上,几年前我曾做过一些语言课程的本科生评估在巴西葡萄牙语语料库上生成的规则)。事实上,您甚至可以完全自己编写一套规则。

简而言之,虽然 Brill 标记器作为强大的级联标记器系统的最后一步很有用,但通常它不是单独使用的最佳选择(如果您想使用单个标记器,我建议使用一个HMM)。我的建议是在另一个标记器的标记输出上训练和使用 Brill 标记器,最好是一个组合系统,例如投票一个(即,当您设置三个或四个不同的标记器时,使用投票系统为每个标记选择最佳标记然后才将这些结果提供给 Brill 标记器,该标记器有望纠正以前系统中最常见的错误)。

于 2010-02-28T16:55:51.777 回答
1

论文“Independence and Commitment: Assumptions for Rapid Training and Execution of Rule-based POS Taggers”和“Transformation-Based Learning in the Fast Lane”中提出了一些改进 Brill 标注器的建议。此外,基于规则的 POS 和形态标注工具包RDRPOSTagger还为 Brill 的标注器提供了改进,其中基于转换的规则以二叉决策树的形式存储。因此,RDRPOSTagger 获得了非常快的训练和标记性能,并且比 Brill 的准确度更高。在这里查看结果。

于 2015-12-02T07:08:26.343 回答