0

我在使用 apache PDFBox 从 PDF 中提取数据时遇到了一些问题。使用 PDFBox 1.1 版,我能够正确提取数据。但是相同的代码在 1.3.1 版本中给出了不同的输出。只有少数PDF,我面临这个问题。

代码示例

PDDocument document = PDDocument.load(new File("sample.pdf"));
PDFTextStripper stripper = new PDFTextStripper();
stripper.setSortByPosition( true );
System.out.println(stripper.getText(document));

这是示例输出:

使用 1.1 版:帐号 xxxxx xxxxxx-xx-x .....

With version 1.3.1: SCHDoe SISInrPnnvuttccraareillreuucfczeX dde,Pt reeF Hr rusdeDiIBc N dsDVeOe I:PiiTgdtlaYieutais Bll sXPuwF rn ew df ew l er .rdceo dS mwecritvhaiscte.cso 0 m 2 / 1 2 - 0431/01-1649-9105040.99 MURTgs Ac Bw TAoiucllttciaonol g PuA Danmyta otNeuunmt Dbueer 00$0T P9122a5/0/g3117e198。/4/211 17 11o6f0 3498-01-6 THITTTPTNoFHHoDC ttEE HDaaDE lliiAAP ggVXAM-hiTRtTFda A Tueo .....

有人知道可能是什么问题吗?

4

1 回答 1

0

我建议您从这里尝试 PDFBox 1.5.0 -此版本中修复了许多文本提取问题。

于 2011-03-13T04:09:35.217 回答