我正在使用Apache Tika将一些 MS Word 文档解析为 HTML(字符串)。问题是某些文档包含特殊字符(例如数学运算符)。有什么办法可以解决吗?谢谢你的帮助。
输入:
输出
源代码
SAXTransformerFactory.newInstance();
TransformerHandler handler = null;
try {
handler = factory.newTransformerHandler();
} catch (TransformerConfigurationException e) {
logger.warn(String.format("SAX Processing is not available: ", e));
return;
}
handler.getTransformer().setOutputProperty(OutputKeys.INDENT, "yes");
handler.getTransformer().setOutputProperty(OutputKeys.METHOD, "xml");
handler.getTransformer().setOutputProperty(OutputKeys.ENCODING, "UTF-8");
handler.setResult(new StreamResult(output)); // StringWriter output