我正在尝试了解 UIMA 架构。
我想创建一个以 HTML 标记开头的管道。我需要将其剥离为纯文本,以便它可以由不同的注释器处理,如 POS、分块、实体检测等。但是我还想跟踪哪些区域对应于原始 html 标签,如链接、段落, em 等。基本上我想要一个最终的注释器,它可以同时利用结构注释(来自 html)和语义注释(来自其他组件)。
所以,我可以想象从一个剥离 html 标记并添加注释以跟踪我感兴趣的标签的组件开始。这样的组件是否已经存在?这似乎是很多人想要的东西。
如果我必须从头开始创建它,它是什么组件?它不仅仅是一个直接的注释器,因为它需要更改 SOFA:它需要用纯文本替换标记。
或者我应该让它创建文档的新视图,以便我们维护文档的标记视图和纯文本视图?这看起来很奇怪,考虑到我再也不会关心标记视图了。另外,我如何确保其他注释器(我不会自己编码)在文档的纯文本视图而不是标记视图上操作?