这通常并不简单,因为您无法更改 CAS 中的文档文本。
UIMA Ruta 中有一些功能可以修改文档,但结果需要存储在另一个 CAS 视图或附加文件中。一些一般性评论:
这是您问题中示例的脚本:
ENGINE utils.Modifier;
ENGINE utils.ViewWriter;
TYPESYSTEM utils.SourceDocumentInformation;
DECLARE ToReplace;
// just create an annotation
"(?i)7\\s*\\(SEVEN\\)" -> ToReplace;
// replace the text covered by all annotations with the string "7"
ToReplace{-> REPLACE("7")};
//... the annotation should be removed again with UNMARK before different replacements are performed...
// it is also possible to do this in a more generic way with features and variables
// ... either store the changed text in the "modified" view and in an additional html file
Document{-> CONFIGURE(Modifier, "outputLocation" = "D:/modified/"), EXEC(Modifier)};
// ... or store the changed text in the "modified" view and in an additional xmiCAS
Document{-> EXEC(Modifier), CONFIGURE(ViewWriter, "inputView" = "modified", "output" = "../modified/"), EXEC(ViewWriter)};
顺便提一下:Modfier 有一些小错误导致空格加倍。
对替换进行建模的更通用方法可能是:
DECLARE Annotation ToReplace(STRING r);
"(?i)(7)\\s*\\(SEVEN\\)" -> ToReplace ("r" = 1);
ToReplace{-> REPLACE(ToReplace.r)};
ToReplace 注释现在有一个附加的字符串功能,它存储应该替换注释的覆盖文本的值。regexp 表达式有一个额外的捕获组,用于指定注解中的字符串(使用捕获组的编号赋值)。现在,带有 REPLACE 的规则更加通用,因为不需要在操作中给出实际值,而是应用了特征的值。因此,最后一条规则可用于其他规则指定的任何替换。
对更改后的文本进行操作的连续替换通常需要在带有沙发映射的管道中指定,因为后面的规则需要对不同的视图进行操作。在 UIMA Ruta Workbench 中,可以在单独的脚本文件中定义查找/替换,然后为每个脚本文件使用一个启动配置。启动配置能够指定输入和输出文件夹。结合 ViewWriter,用户可以构建一个脚本文件链,在之前脚本文件的输出文件夹中运行。
连续替换也可以在一个脚本文件中完成,但有一些限制。REPLACE 操作实际上将新文本存储在每个 RutaBasic 注释的替换特征中。第一个 RutaBasic 获取完整的新字符串,另一个 RutaBasic 设置为空字符串。当修改器创建新文本时,Ruta基本注释的覆盖文本被特征值替换,因此第一个标记被完整的替换字符串替换,另一个标记被删除。了解此过程后,规则可以根据先前的替换操作并更改相应的特征值。总的来说,连续替换是可能的,但并不简单。