我正在使用 Apache Tika (tika-app-1.3) 使用以下代码解析 PDF 文件:
InputStream input = new FileInputStream("Introduction.pdf");
AutoDetectParser parser = new AutoDetectParser();
BodyContentHandler handler = new BodyContentHandler(100 * 1024 * 1024);
Metadata metadata = new Metadata();
parser.parse(input, handler, metadata);
System.out.println(handler.toString());
handler.toString()
正在显示 PDF 文本,但此文本还包含项目符号,这些项目符号显示为?
符号,但我希望这些项目符号保持原样。有什么方法可以使用 Apache Tika 获得原始的原样内容?或者解析时需要在哪里定义编码?