html - 如何使用 Apache tika 解析器从 HTML 中提取标题、正文和图像

翻译自：https://stackoverflow.com/questions/27623809 2014-12-23T15:59:58.590

1274 次

1

我想从 HTML 页面中提取标题、html 正文（纯文本）、图像 url，是否可以使用 Apache Tika 服务器来实现它？

1 回答 1

1

按原样使用 Apache Tika 服务器，在一个步骤中，您无法同时获取正文纯文本和所有img标记 src URL

您有几种选择：

首先，向 Tika 服务器请求文件的纯文本。然后，第二次向它询问客户端用于img标签的标准化 HTML + 过滤器
向 Tika 服务器请求规范化的 HTML 表单，然后在img本地获取标签 url 和纯文本，可能使用您自己的 xhtml 解析器
使用自定义内容处理程序直接调用 Tika java 代码，而不使用服务器。

对于选项#3，您希望在很大程度上遵循获取 xhtml 文档示例的正文，但丢弃大部分标记信息。你只关心img标签作为标签，其余的你只通过内部字符

于 2015-07-19T20:50:03.443 回答