我想从 HTML 页面中提取标题、html 正文(纯文本)、图像 url,是否可以使用 Apache Tika 服务器来实现它?
问问题
1274 次
1 回答
1
按原样使用 Apache Tika 服务器,在一个步骤中,您无法同时获取正文纯文本和所有img
标记 src URL
您有几种选择:
- 首先,向 Tika 服务器请求文件的纯文本。然后,第二次向它询问客户端用于
img
标签的标准化 HTML + 过滤器 - 向 Tika 服务器请求规范化的 HTML 表单,然后在
img
本地获取标签 url 和纯文本,可能使用您自己的 xhtml 解析器 - 使用自定义内容处理程序直接调用 Tika java 代码,而不使用服务器。
对于选项#3,您希望在很大程度上遵循获取 xhtml 文档示例的正文,但丢弃大部分标记信息。你只关心img
标签作为标签,其余的你只通过内部字符
于 2015-07-19T20:50:03.443 回答