当我尝试使用由 cups pdf 生成的 java 中的 pdf 框解析 pdf 文件时,显示垃圾字符。但它与常见的 pdf 完美配合,我检查了 font cups pdf 显示 FreeMono_00.ttf (但我没有在任何地方看到这样的字体)并且工作 pdf 显示 ArialMT。
我想做的任何不同的事情来解析使用 cups-pdf 生成的 pdf。
下面是我用来解析的代码。
parser = new PDFParser(new FileInputStream(File file));
parser.parse();
COSDocument cosDoc = parser.getDocument();
PDFTextStripperpdfStripper = new PDFTextStripper();
PDDocument pdDoc = new PDDocument(cosDoc);
String parsedText = pdfStripper.getText(pdDoc);
输出是这样的)LOH1DPHDVGW[W 6XEMHFWVXEMHFWVVDPSOH 0HVVDJHVHQGLQJGHWDLOVDORQJZLWKSULQWILOH 8VHU1DPH$EGXOUD]DN30 8VHU,'D#DFRP
只是复制粘贴也给出了这样的