1

几周以来,我一直在寻找解决方案,我有一些文件(大约 95 个)正在尝试使用 GATE 进行分类。我已将它们放在一个名为 training_corpus 的语料库中,但是,在 ANNIE 对语料库进行注释之后,我必须返回每个文件,选择文档中的所有标记,并创建一个名为 Mention 的注释,其中包含特征类型和类值为文档。例如:

type Start End id Features
Mention 0 70000 2588 {type=neg}

无论如何,有没有用 JAPE 自动执行此操作?基本上,我想选择所有标记并使用功能(类型=类)创建一个新注释。此外,该类被附加到文档中。由于文档很多,JAPE 可以从文档名称中提取类并将其设置为 Mentions 特征的值。示例文档名称为 neg_data1.txt,因此注释将为 Mention.type = neg?

任何帮助将不胜感激。谢谢

4

1 回答 1

2

我想你自己回答了你的问题。如果课堂作业仅基于文本中的一个标记 - 为什么不简单地在 GATE 之外处理文本?例如创建一个 xml 文件,例如:文本,然后在训练过程中使用它。您还可以创建一个简单的 JAPE 规则,该规则将:a)将在文档边界内获取文本(参见 gate.Utils.length 方法 AFAIR)b)基于您的令牌的存在将创建一个具有必要功能的新 Annotation 实例。一个抽象的例子:

Phase: Instance
Input: Token
Options: control = once

Rule:Instance
(
  {Token}
):instance
-->
{
   AnnotationSet instances = outputAS.get("INSTANCE_ANNOTATION");
    FeatureMap featureMap = Factory.newFeatureMap();
    if (instances!=null&&!instances.isEmpty()){
       featureMap.put("features when annotation presented in doc");
     }else{
       featureMap.put("features when annotation not in doc");
     }
    outputAS.add(new Long(0), new Long(documentLength), "Mention", featureMap);

}
于 2014-04-02T05:24:10.540 回答