我有 2 列格式的 pdf。我能够将其解析为简单的文本,但这些 pdf 之间也有图像。结果,对于中间有图像的pdf的特定页面,我的文本输出变得混乱。
例如,考虑 2 列页面格式
图像文本2
图像图像
图片文字3
文本 1 图像
Text4
输出是 Text4 Text3 Text2 Text1 而不是 Text1 Text2 Text3 Text4
有什么解决方案可以按正确的顺序阅读文本吗?
我正在使用以下代码
public void parsePdf(String pdf, String txt) throws IOException {
PdfReader reader = new PdfReader(pdf);
PdfReaderContentParser parser = new PdfReaderContentParser(reader);
PrintWriter out = new PrintWriter(new FileOutputStream(txt));
TextExtractionStrategy strategy;
for (int i = 76; i <= reader.getNumberOfPages(); i++) {
strategy = parser.processContent(i, new SimpleTextExtractionStrategy());
out.println(strategy.getResultantText());
}
out.flush();
out.close();
}