4

我正在尝试了解 UIMA 架构。

我想创建一个以 HTML 标记开头的管道。我需要将其剥离为纯文本,以便它可以由不同的注释器处理,如 POS、分块、实体检测等。但是我还想跟踪哪些区域对应于原始 html 标签,如链接、段落, em 等。基本上我想要一个最终的注释器,它可以同时利用结构注释(来自 html)和语义注释(来自其他组件)。

所以,我可以想象从一个剥离 html 标记并添加注释以跟踪我感兴趣的标签的组件开始。这样的组件是否已经存在?这似乎是很多人想要的东西。

如果我必须从头开始创建它,它是什么组件?它不仅仅是一个直接的注释器,因为它需要更改 SOFA:它需要用纯文本替换标记。

或者我应该让它创建文档的新视图,以便我们维护文档的标记视图和纯文本视图?这看起来很奇怪,考虑到我再也不会关心标记视图了。另外,我如何确保其他注释器(我不会自己编码)在文档的纯文本视图而不是标记视图上操作?

4

2 回答 2

1

UIMA Ruta为此任务提供了一些分析引擎。HtmlAnnotator在 html 文本中为不同的标签创建注释HtmlConverter能够创建一个新视图,该视图仅包含 html 的文本,但带有相应的标签注释。有一些用于处理换行符等的配置参数。对于在管道中没有沙发映射的进一步处理,有一个 ViewWriter 能够将新的纯文本视图复制到新文件的 _initalView 中。

免责声明:我是 UIMA Ruta 的开发人员

于 2014-04-03T12:43:34.190 回答
1

根据标记的复杂程度,有些人使用 Apache Tika,有些人使用 Boilerpipe。

这是一个想要在 UIMA 中使用 Boilerpipe 但遇到障碍的人的博客文章,因为他想将偏移量保留回 HTML。

这是调用 tika 的 UIMA 注释器。

于 2012-06-19T00:26:42.760 回答