1

我想从 HTML 页面中提取标题、html 正文(纯文本)、图像 url,是否可以使用 Apache Tika 服务器来实现它?

4

1 回答 1

1

按原样使用 Apache Tika 服务器,在一个步骤中,您无法同时获取正文纯文本和所有img标记 src URL

您有几种选择:

  1. 首先,向 Tika 服务器请求文件的纯文本。然后,第二次向它询问客户端用于img标签的标准化 HTML + 过滤器
  2. 向 Tika 服务器请求规范化的 HTML 表单,然后在img本地获取标签 url 和纯文本,可能使用您自己的 xhtml 解析器
  3. 使用自定义内容处理程序直接调用 Tika java 代码,而不使用服务器。

对于选项#3,您希望在很大程度上遵循获取 xhtml 文档示例的正文,但丢弃大部分标记信息。你只关心img标签作为标签,其余的你只通过内部字符

于 2015-07-19T20:50:03.443 回答