0

我有一个语言的语料库,之前没有做过 POS 注释,也就是说,它没有现有的标签集。除了使用记事本等文字处理器手动标记它之外,是否有任何自动方法可以开始标记新的未标记集,例如我的语料库?谢谢。

4

2 回答 2

0

这取决于标签集的详细程度。10-12 基本词性(名词,形容词,...,外国,标点符号)或更详细(区分动词形式,代词类型,性别,数字,时态,...)。

前者几乎是通用的(参见 Multext-East 标签集或 Google 的通用标签集的类别)。

后者要复杂得多,我们有一篇关于它的论文。简而言之,我们有一个标签集模板,然后我们修改它(删除/添加类别和值)以适应特定语言。

关于注释:同样,这取决于 - 如果您有一个小标签集,您可以手动为每个单词分配一个标签,例如在记事本或一些简单的 GUI 中(我们使用这个,但可能有更好的)。如果您有一个包含数百或数千个标签的标签集,那么您可能需要更好的支持。最好的办法是使用(可能过度生成的)形态分析器和允许从分析器建议的选项中进行选择的 GUI。

于 2013-08-15T13:16:15.553 回答
0

Brat有一个非常好的用于手动注释的 GUI。

于 2013-08-16T08:39:43.087 回答