java - 使用 Tika 解析元标记并从正文中获取 HTML 内容

Question

我使用出色的 Apache Tika 库解析文件。我想用我自己的解析器提取元标记，然后仅从<body>-tag 中获取内容作为 HTML 并将其存储在数据库中。

我现在已经尝试了几个小时/几天:-(，但找不到解决方案：

当我在-tagToHTMLContentHandler 之后<body>使用时，我会遇到没有 -tag 的无效命名空间的异常<html>。
BodyContentHandler只返回没有 HTML 标签的正文。
tika-app似乎使用 a来TransformerHandler获取 HTML（我以前从未听说过这种处理程序。）我可以使用它从<body>-tag 获取 HTML 并自己解析元标记吗？这是比使用更好的方法ToHTMLContentHandler吗？

score 2 · Accepted Answer

检查以下链接是否对您有所帮助..

1 回答 1