我使用出色的 Apache Tika 库解析文件。我想用我自己的解析器提取元标记,然后仅从<body>
-tag 中获取内容作为 HTML 并将其存储在数据库中。
我现在已经尝试了几个小时/几天:-(,但找不到解决方案:
- 当我在-tag
ToHTMLContentHandler
之后<body>
使用时,我会遇到没有 -tag 的无效命名空间的异常<html>
。 BodyContentHandler
只返回没有 HTML 标签的正文。tika-app
似乎使用 a来TransformerHandler
获取 HTML(我以前从未听说过这种处理程序。)我可以使用它从<body>
-tag 获取 HTML 并自己解析元标记吗?这是比使用更好的方法ToHTMLContentHandler
吗?