阅读多栏PDF文档
当 iText 读取 PDF(将页面内容提取到字符串变量中)时,内容将通过以下方式修复:
reader = new PdfReader(getResources().openRawResource(R.raw.resume1));
original_content = PdfTextExtractor.getTextFromPage(reader, 2);
String sub_content = original_content.trim().replaceAll(" {2,}", " ");
sub_content = sub_content.trim().replaceAll("\n ", "\n");
sub_content = sub_content.replaceAll("(.+)(?<!\\.)\n(?!\\W)", "$1 ");
如果文档只有 1 列,但如果文档有多列,它将每行提取文档 1。它将结合左右列。
我将其用作示例 PDF,这是来自 START QA 文档。
如何阅读多列的 PDF 文档?