我正在从 Java Maven 项目动态执行 ruta 脚本。该脚本注释一个 HTML 文件,并进一步处理输出。现在,coveredText 之间包含 HTML 标记,如下所示;
(a+b) < SUP >2< /SUP> ==> 标记为公式
但我希望它作为
(a+b)2 ==> 将上标作为另一个注释捕获并稍后处理。
如何达到预期的解决方案?
在 UIMA 中,文档文本是静态的。如果要更改文本,则需要创建新视图/CAS。在 ruta 中,有三个组件可以创建带有修改的文档文本的 cas:HtmlConverter、RutaModifier、RutaCutter。如果您想在同一管道中进一步处理它,您需要一个带有沙发映射的聚合 AE(或沙发感知分析引擎)。
有一些关于这些分析引擎及其用法的文档。还有一个这些规则的示例项目和一个讨论一些可能问题的StackOverflow问题。关于沙发映射的信息可以在UIMA 文档中找到
(免责声明:我是 UIMA Ruta 的开发人员)