html-parsing - 使用 UIMA 处理 HTML

Question

我正在尝试了解 UIMA 架构。

我想创建一个以 HTML 标记开头的管道。我需要将其剥离为纯文本，以便它可以由不同的注释器处理，如 POS、分块、实体检测等。但是我还想跟踪哪些区域对应于原始 html 标签，如链接、段落, em 等。基本上我想要一个最终的注释器，它可以同时利用结构注释（来自 html）和语义注释（来自其他组件）。

所以，我可以想象从一个剥离 html 标记并添加注释以跟踪我感兴趣的标签的组件开始。这样的组件是否已经存在？这似乎是很多人想要的东西。

如果我必须从头开始创建它，它是什么组件？它不仅仅是一个直接的注释器，因为它需要更改 SOFA：它需要用纯文本替换标记。

或者我应该让它创建文档的新视图，以便我们维护文档的标记视图和纯文本视图？这看起来很奇怪，考虑到我再也不会关心标记视图了。另外，我如何确保其他注释器（我不会自己编码）在文档的纯文本视图而不是标记视图上操作？

score 1 · Accepted Answer

UIMA Ruta为此任务提供了一些分析引擎。HtmlAnnotator在 html 文本中为不同的标签创建注释。HtmlConverter能够创建一个新视图，该视图仅包含 html 的文本，但带有相应的标签注释。有一些用于处理换行符等的配置参数。对于在管道中没有沙发映射的进一步处理，有一个 ViewWriter 能够将新的纯文本视图复制到新文件的 _initalView 中。

免责声明：我是 UIMA Ruta 的开发人员

score 1 · Accepted Answer

根据标记的复杂程度，有些人使用 Apache Tika，有些人使用 Boilerpipe。

这是一个想要在 UIMA 中使用 Boilerpipe 但遇到障碍的人的博客文章，因为他想将偏移量保留回 HTML。

这是调用 tika 的 UIMA 注释器。

html-parsing - 使用 UIMA 处理 HTML

2 回答 2

Related

Reference