java - CSS 样式和

使用 Apache Tika 解析时忽略标签

翻译自：https://stackoverflow.com/questions/10894406 2012-06-05T09:01:25.040

517 次

当我使用 AutoDetectParser 解析 PDF 或 Word 文档时，“li”、“ul”标签被转换为“p”标签。我需要 PDF 或 Word 文档的确切 HTML 内容。

我尝试了以下几种方式：

ToHTMLContentHandler textHandler = new ToHTMLContentHandler();
Metadata metadata = new Metadata();
Parser parser = new AutoDetectParser();
ParseContext context = new ParseContext();
context.set(HtmlMapper.class, new IdentityHtmlMapper());
parser.parse(in, textHandler, metadata, context);

SAXTransformerFactory factory = (SAXTransformerFactory)SAXTransformerFactory.newInstance();
TransformerHandler handler = factory.newTransformerHandler();
handler.getTransformer().setOutputProperty(OutputKeys.METHOD, "html");
handler.getTransformer().setOutputProperty(OutputKeys.INDENT, "no");
handler.getTransformer().setOutputProperty(OutputKeys.ENCODING, "utf-8");
handler.setResult(new StreamResult(writer));
System.out.println(handler.toString());
return handler;

但是“li”标签被替换为带有类的“p”标签，但在解析的 HTML 输出中看不到 CSS 样式。

任何帮助表示赞赏。

java - CSS 样式和 使用 Apache Tika 解析时忽略标签

0 回答 0

Related

Reference

java - CSS 样式和

使用 Apache Tika 解析时忽略标签