java - 使用 PDFBox 解析 PDF 文件（尤其是表格）

Question

我需要解析一个包含表格数据的 PDF 文件。我正在使用PDFBox提取文件文本以稍后解析结果（字符串）。问题是文本提取不像我对表格数据的预期那样工作。例如，我有一个文件，其中包含这样的表（7 列：前两列总是有数据，只有一个复杂性列有数据，只有一个财务列有数据）：

+----------------------------------------------------------------+
| AIH | Value | Complexity                     | Financing       |
|     |       | Medium | High | Not applicable | MAC/Other | FAE |
+----------------------------------------------------------------+
| xyz | 12.43 | 12.34  |      |                | 12.34     |     |
+----------------------------------------------------------------+
| abc | 1.56  |        | 1.56 |                |           | 1.56|
+----------------------------------------------------------------+

然后我使用 PDFBox：

PDDocument document = PDDocument.load(pathToFile);
PDFTextStripper s = new PDFTextStripper();
String content = s.getText(document);

这两行数据将像这样提取：

xyz 12.43 12.4312.43
abc 1.56 1.561.56

最后两个数字之间没有空格，但这不是最大的问题。问题是我不知道最后两个数字是什么意思：中、高、不适用？MAC/其他，FAE？我没有数字与其列之间的关系。

我不需要使用 PDFBox 库，因此使用另一个库的解决方案很好。我想要的是能够解析文件并知道每个解析的数字意味着什么。

score 20 · Accepted Answer

您将需要设计一种算法来提取可用格式的数据。无论您使用哪个 PDF 库，都需要这样做。字符和图形是通过一系列有状态的绘制操作来绘制的，即移动到屏幕上的这个位置并绘制字符'c'的字形。

我建议您扩展org.apache.pdfbox.pdfviewer.PDFPageDrawer并覆盖该strokePath方法。从那里您可以截取水平和垂直线段的绘图操作，并使用该信息来确定表格的列和行位置。然后设置文本区域并确定在哪个区域中绘制哪些数字/字母/字符是一件简单的事情。由于您知道区域的布局，因此您将能够判断提取的文本属于哪一列。

此外，在视觉上分隔的文本之间可能没有空格的原因是，PDF 通常不会绘制空格字符。而是更新文本矩阵并发出“移动”的绘图命令以绘制下一个字符以及与最后一个字符分开的“空间宽度”。

祝你好运。

score 16 · Accepted Answer

我使用了很多工具从 pdf 文件中提取表格，但它对我不起作用。

所以我实现了我自己的算法（它的名字是traprange）来解析 pdf 文件中的表格数据。

以下是一些示例 pdf 文件和结果：

输入文件：sample-1.pdf，结果：sample-1.html
输入文件：sample-4.pdf，结果：sample-4.html

在traprange访问我的项目页面。

score 15 · Accepted Answer

您可以在 PDFBox 中按区域提取文本。如果您使用 Maven ，请参阅工件ExtractByArea.java中的示例文件。pdfbox-examples一个片段看起来像

   PDFTextStripperByArea stripper = new PDFTextStripperByArea();
   stripper.setSortByPosition( true );
   Rectangle rect = new Rectangle( 464, 59, 55, 5);
   stripper.addRegion( "class1", rect );
   stripper.extractRegions( page );
   String string = stripper.getTextForRegion( "class1" );

问题是首先获取坐标。我已经成功地扩展了 normal TextStripper，覆盖processTextPosition(TextPosition text)并打印了每个字符的坐标，并确定了它们在文档中的位置。

但是有一个更简单的方法，至少如果你在 Mac 上。在预览中打开 PDF，⌘I 以显示检查器，选择裁剪选项卡并确保单位为点，从工具菜单中选择矩形选择，然后选择感兴趣的区域。如果您选择一个区域，检查器将向您显示坐标，您可以将其四舍五入并输入到Rectangle构造函数参数中。您只需要使用第一种方法确认原点在哪里。

score 11 · Accepted Answer

我的回答可能为时已晚，但我认为这并不难。您可以扩展 PDFTextStripper 类并覆盖 writePage() 和 processTextPosition(...) 方法。在您的情况下，我假设列标题始终相同。这意味着您知道每个列标题的 x 坐标，并且可以将数字的 x 坐标与列标题的 x 坐标进行比较。如果它们足够接近（您必须测试以确定有多接近），那么您可以说该数字属于该列。

另一种方法是在每页写入后截取“charactersByArticle”向量：

@Override
public void writePage() throws IOException {
    super.writePage();
    final Vector<List<TextPosition>> pageText = getCharactersByArticle();
    //now you have all the characters on that page
    //to do what you want with them
}

了解您的列后，您可以比较 x 坐标以确定每个数字所属的列。

数字之间没有空格的原因是您必须设置单词分隔符字符串。

我希望这对您或可能正在尝试类似事情的其他人有用。

score 10 · Accepted Answer

PDFLayoutTextStripper旨在保持数据的格式。

从自述文件：

import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;

import org.apache.pdfbox.pdfparser.PDFParser;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.util.PDFTextStripper;

public class Test {

    public static void main(String[] args) {
        String string = null;
        try {
            PDFParser pdfParser = new PDFParser(new FileInputStream("sample.pdf"));
            pdfParser.parse();
            PDDocument pdDocument = new PDDocument(pdfParser.getDocument());
            PDFTextStripper pdfTextStripper = new PDFLayoutTextStripper();
            string = pdfTextStripper.getText(pdDocument);
        } catch (FileNotFoundException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        };
        System.out.println(string);
    }
}

score 4 · Accepted Answer

我在解析由pdftotext实用程序 (sudo apt-get install poppler-utils) 生成的文本文件方面取得了不错的成功。

File convertPdf() throws Exception {
    File pdf = new File("mypdf.pdf");
    String outfile = "mytxt.txt";
    String proc = "/usr/bin/pdftotext";
    ProcessBuilder pb = new ProcessBuilder(proc,"-layout",pdf.getAbsolutePath(),outfile); 
    Process p = pb.start();

    p.waitFor();

    return new File(outfile);
}

score 4 · Accepted Answer

尝试使用 TabulaPDF ( https://github.com/tabulapdf/tabula )。这是从 PDF 文件中提取表格内容的非常好的库。非常符合预期。

祝你好运。:)

score 2 · Accepted Answer

我在阅读数据为表格格式的 pdf 文件时遇到了同样的问题。在使用 PDFBox 进行常规解析后，每一行都用逗号作为分隔符进行提取......失去了柱状位置。为了解决这个问题，我使用了 PDFTextStripperByArea 并使用坐标为每一行逐列提取数据。前提是您有固定格式的 pdf。

        File file = new File("fileName.pdf");
        PDDocument document = PDDocument.load(file);
        PDFTextStripperByArea stripper = new PDFTextStripperByArea();
        stripper.setSortByPosition( true );
        Rectangle rect1 = new Rectangle( 50, 140, 60, 20 );
        Rectangle rect2 = new Rectangle( 110, 140, 20, 20 );
        stripper.addRegion( "row1column1", rect1 );
        stripper.addRegion( "row1column2", rect2 );
        List allPages = document.getDocumentCatalog().getAllPages();
        PDPage firstPage = (PDPage)allPages.get( 2 );
        stripper.extractRegions( firstPage );
        System.out.println(stripper.getTextForRegion( "row1column1" ));
        System.out.println(stripper.getTextForRegion( "row1column2" ));

然后第 2 行，依此类推...

score 2 · Accepted Answer

从 PDF 中提取数据必然会充满问题。文档是通过某种自动过程创建的吗？如果是这样，您可以考虑将 PDF 转换为未压缩的 PostScript（尝试 pdf2ps）并查看 PostScript 是否包含某种可以利用的常规模式。

score 2 · Accepted Answer

您可以使用 PDFBox 的PDFTextStripperByArea类从文档的特定区域中提取文本。您可以通过识别表格的每个单元格的区域来建立此基础。这不是开箱即用的，但示例DrawPrintTextLocations类演示了如何解析文档中单个字符的边界框（解析字符串或段落的边界框会很棒，但我还没有看到支持PDFBox - 请参阅此问题）。您可以使用这种方法对所有接触的边界框进行分组，以识别表格的不同单元格。一种方法是维护一组boxes区域Rectangle2D，然后为每个解析的字符找到字符的边界框，DrawPrintTextLocations.writeString(String string, List<TextPosition> textPositions)并将其与现有内容合并。

Rectangle2D bounds = s.getBounds2D();
// Pad sides to detect almost touching boxes
Rectangle2D hitbox = bounds.getBounds2D();
final double dx = 1.0; // This value works for me, feel free to tweak (or add setter)
final double dy = 0.000; // Rows of text tend to overlap, so no need to extend
hitbox.add(bounds.getMinX() - dx , bounds.getMinY() - dy);
hitbox.add(bounds.getMaxX() + dx , bounds.getMaxY() + dy);

// Find all overlapping boxes
List<Rectangle2D> intersectList = new ArrayList<Rectangle2D>();
for(Rectangle2D box: boxes) {
    if(box.intersects(hitbox)) {
        intersectList.add(box);
    }
}

// Combine all touching boxes and update
for(Rectangle2D box: intersectList) {
    bounds.add(box);
    boxes.remove(box);
}
boxes.add(bounds);

然后，您可以将这些区域传递给PDFTextStripperByArea.

您还可以更进一步，将这些区域的水平和垂直分量分开，从而推断所有表格单元格的区域，无论是否包含任何内容。

我有理由执行这些步骤，并最终PDFTableStripper使用PDFBox编写了我自己的课程。我已经在 GitHub 上分享了我的代码作为要点。该main方法给出了如何使用该类的示例：

try (PDDocument document = PDDocument.load(new File(args[0])))
{
    final double res = 72; // PDF units are at 72 DPI
    PDFTableStripper stripper = new PDFTableStripper();
    stripper.setSortByPosition(true);

    // Choose a region in which to extract a table (here a 6"wide, 9" high rectangle offset 1" from top left of page)
    stripper.setRegion(new Rectangle(
        (int) Math.round(1.0*res), 
        (int) Math.round(1*res), 
        (int) Math.round(6*res), 
        (int) Math.round(9.0*res)));

    // Repeat for each page of PDF
    for (int page = 0; page < document.getNumberOfPages(); ++page)
    {
        System.out.println("Page " + page);
        PDPage pdPage = document.getPage(page);
        stripper.extractTable(pdPage);
        for(int c=0; c<stripper.getColumns(); ++c) {
            System.out.println("Column " + c);
            for(int r=0; r<stripper.getRows(); ++r) {
                System.out.println("Row " + r);
                System.out.println(stripper.getText(r, c));
            }
        }
    }
}

score 1 · Accepted Answer

我不需要使用 PDFBox 库，所以使用另一个库的解决方案很好

卡米洛特和神剑

您可能想尝试 Python 库Camelot，这是一个 Python 的开源库。如果您不喜欢编写代码，您可以使用围绕 Camelot 创建的 Web 界面Excalibur 。您将文档“上传”到 localhost Web 服务器，然后从该 localhost 服务器“下载”结果。

这是使用此 python 代码的示例：

import camelot
tables = camelot.read_pdf('foo.pdf', flavor="stream")
tables[0].to_csv('foo.csv')

输入是包含此表的 pdf：

^{PDF-TREX 集中的示例表}

没有为 camelot 提供任何帮助，它通过查看文本相对对齐来自行工作。结果以 csv 文件的形式返回：

^{camelot 从样本中提取的 PDF 表格}

可以添加“规则”以帮助 camelot 识别复杂表格中的圆角：

^{Excalibur 中添加的规则。资源}

GitHub：

卡米洛特：https ://github.com/camelot-dev/camelot
Excalibur：https ://github.com/camelot-dev/excalibur

这两个项目都很活跃。

这是与其他软件的比较（根据实际文档进行测试），Tabula，pdfplumber，pdftables，pdf-table-extract。

我想要的是能够解析文件并知道每个解析的数字意味着什么

您不能自动执行此操作，因为 pdf 不是语义结构化的。

书籍与文件

pdf“文档”从语义的角度来看是非结构化的（就像记事本文件），pdf文档给出了在哪里打印文本片段的说明，与同一部分的其他片段无关，内容之间没有分隔（打印什么，以及这是否是标题、表格或脚注的片段）和视觉表示（字体、位置等）。Pdf 是PostScript的扩展，它描述了一个 Hello world！这样页面：

!PS
 /Courier             % font
 20 selectfont        % size
 72 500 moveto        % current location to print at
 (Hello world!) show  % add text fragment
 showpage             % print all on the page

（维基百科）。
可以想象一张使用相同指令的桌子是什么样子的。

我们可以说 html 不是更清晰，但是有一个很大的区别：Html 从语义上描述了内容（标题、段落、列表、表格标题、表格单元格……）并将 css 关联起来以产生视觉形式，因此内容是完全可访问。从这个意义上说，html 是sgml的简化后代，它设置约束以允许数据处理：

标记应该描述文档的结构和其他属性，而不是指定需要执行的处理，因为它不太可能与未来的发展发生冲突。

与 PostScript/Pdf 完全相反。SGML 用于出版。Pdf 没有嵌入这种语义结构，它只携带与普通字符串相关的 css 等效项，这些字符串可能不是完整的单词或句子。Pdf 用于封闭文档，现在用于所谓的工作流管理。

在尝试了尝试从 pdf 中提取数据的不确定性和困难之后，很明显 pdf 根本不是为将来保留文档内容的解决方案（尽管 Adobe 从他们的配对中获得了pdf 标准）。

实际上保存完好的是印刷版，因为 pdf 在创建时完全致力于这一方面。Pdf 几乎和印刷书籍一样死气沉沉。

当重用内容很重要时，必须再次依靠手动重新输入数据，例如从印刷书籍中（可能尝试对其进行一些 OCR）。这越来越真实，因为许多 pdf 甚至阻止使用复制粘贴，在单词之间引入多个空格或在为 Web 使用进行一些“优化”时产生无序字符乱码。

当文档的内容（而不是其印刷形式）有价值时，pdf 就不是正确的格式。甚至 Adobe 也无法从其 pdf 渲染中完美地重新创建文档的来源。

因此，开放数据永远不应该以 pdf 格式发布，这将它们的使用限制在阅读和打印（在允许的情况下），并使重用变得更加困难或不可能。

score 0 · Accepted Answer

打印到图像并在其上进行 OCR 怎么样？

听起来非常无效，但实际上 PDF 的目的就是让文本无法访问，你必须做你必须做的事情。

score 0 · Accepted Answer

http://swftools.org/这些家伙有一个 pdf2swf 组件。他们还能够显示表格。他们也给出了消息来源。所以你可以检查一下。

score 0 · Accepted Answer

如果 PDF 文件使用 pdfbox 2.0.6 具有“仅矩形表”，则此方法工作正常。不适用于任何其他仅矩形表。

import java.io.File;
import java.io.IOException;
import java.util.ArrayList;

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
import org.apache.pdfbox.text.PDFTextStripperByArea;
public class PDFTableExtractor {
    public static void main(String[] args) throws IOException {
        ArrayList<String[]> objTableList = readParaFromPDF("C:\\sample1.pdf", 1,1,6);
        //Enter Filepath, startPage, EndPage, Number of columns in Rectangular table
    }
    public static ArrayList<String[]> readParaFromPDF(String pdfPath, int pageNoStart, int pageNoEnd, int noOfColumnsInTable) {
        ArrayList<String[]> objArrayList = new ArrayList<>();
        try {
            PDDocument document = PDDocument.load(new File(pdfPath));
            document.getClass();
            if (!document.isEncrypted()) {
                PDFTextStripperByArea stripper = new PDFTextStripperByArea();
                stripper.setSortByPosition(true);
                PDFTextStripper tStripper = new PDFTextStripper();
                tStripper.setStartPage(pageNoStart);
                tStripper.setEndPage(pageNoEnd);
                String pdfFileInText = tStripper.getText(document);
                // split by whitespace
                String Documentlines[] = pdfFileInText.split("\\r?\\n");
                for (String line : Documentlines) {
                    String lineArr[] = line.split("\\s+");
                    if (lineArr.length == noOfColumnsInTable) {
                        for (String linedata : lineArr) {
                            System.out.print(linedata + "             ");
                        }
                        System.out.println("");
                        objArrayList.add(lineArr);
                    }
                }
            }
        } catch (Exception e) {
            System.out.println("Exception " +e);
        }
            return objArrayList;
    }
}

score 0 · Accepted Answer

对于任何想要和 OP 做同样事情的人（就像我一样），经过几天的研究，Amazon Textract是最好的选择（如果你的容量很低，免费套餐可能就足够了）。

score 0 · Accepted Answer

ObjectExtractor oe = new ObjectExtractor(document);

SpreadsheetExtractionAlgorithm sea = new SpreadsheetExtractionAlgorithm(); // Tabula algo.

Page page = oe.extract(1); // extract only the first page

for (int y = 0; y < sea.extract(page).size(); y++) {
  System.out.println("table: " + y);
  Table table = sea.extract(page).get(y);

  for (int i = 0; i < table.getColCount(); i++) {
    for (int x = 0; x < table.getRowCount(); x++) {
      System.out.println("col:" + i + "/lin:x" + x + " >>" + table.getCell(x, i).getText());
    }
  }
}

score 0 · Accepted Answer

考虑使用 PDFTableStripper.class

该课程可在 git 上找到： https ://gist.github.com/beldaz/8ed6e7473bd228fcee8d4a3e4525be11#file-pdftablestripper-java-L1

score -1 · Accepted Answer

我不熟悉 PDFBox，但您可以尝试查看itext。即使主页说 PDF 生成，您也可以进行 PDF 操作和提取。看看它是否适合您的用例。

score -1 · Accepted Answer

要从 pdf 文件中读取表格的内容，您只需使用任何 API 将 pdf 文件转换为文本文件（我使用过 iText 的 PdfTextExtracter.getTextFromPage()），然后通过您的 java 程序读取该 txt 文件..现在阅读后主要任务完成..您必须过滤您需要的数据。您可以通过连续使用 String 类的 split 方法来做到这一点，直到找到您的兴趣记录.. 这是我的代码，我通过 PDF 文件提取部分记录并将其写入 .CSV 文件.. PDF 的 URL文件是.. http://www.cea.nic.in/reports/monthly/generation_rep/actual/jan13/opm_02.pdf

代码：-

public static void genrateCsvMonth_Region(String pdfpath, String csvpath) {
        try {
            String line = null;
            // Appending Header in CSV file...
            BufferedWriter writer1 = new BufferedWriter(new FileWriter(csvpath,
                    true));
            writer1.close();
            // Checking whether file is empty or not..
            BufferedReader br = new BufferedReader(new FileReader(csvpath));

            if ((line = br.readLine()) == null) {
                BufferedWriter writer = new BufferedWriter(new FileWriter(
                        csvpath, true));
                writer.append("REGION,");
                writer.append("YEAR,");
                writer.append("MONTH,");
                writer.append("THERMAL,");
                writer.append("NUCLEAR,");
                writer.append("HYDRO,");
                writer.append("TOTAL\n");
                writer.close();
            }
            // Reading the pdf file..
            PdfReader reader = new PdfReader(pdfpath);
            BufferedWriter writer = new BufferedWriter(new FileWriter(csvpath,
                    true));

            // Extracting records from page into String..
            String page = PdfTextExtractor.getTextFromPage(reader, 1);
            // Extracting month and Year from String..
            String period1[] = page.split("PEROID");
            String period2[] = period1[0].split(":");
            String month[] = period2[1].split("-");
            String period3[] = month[1].split("ENERGY");
            String year[] = period3[0].split("VIS");

            // Extracting Northen region
            String northen[] = page.split("NORTHEN REGION");
            String nthermal1[] = northen[0].split("THERMAL");
            String nthermal2[] = nthermal1[1].split(" ");

            String nnuclear1[] = northen[0].split("NUCLEAR");
            String nnuclear2[] = nnuclear1[1].split(" ");

            String nhydro1[] = northen[0].split("HYDRO");
            String nhydro2[] = nhydro1[1].split(" ");

            String ntotal1[] = northen[0].split("TOTAL");
            String ntotal2[] = ntotal1[1].split(" ");

            // Appending filtered data into CSV file..
            writer.append("NORTHEN" + ",");
            writer.append(year[0] + ",");
            writer.append(month[0] + ",");
            writer.append(nthermal2[4] + ",");
            writer.append(nnuclear2[4] + ",");
            writer.append(nhydro2[4] + ",");
            writer.append(ntotal2[4] + "\n");

            // Extracting Western region
            String western[] = page.split("WESTERN");

            String wthermal1[] = western[1].split("THERMAL");
            String wthermal2[] = wthermal1[1].split(" ");

            String wnuclear1[] = western[1].split("NUCLEAR");
            String wnuclear2[] = wnuclear1[1].split(" ");

            String whydro1[] = western[1].split("HYDRO");
            String whydro2[] = whydro1[1].split(" ");

            String wtotal1[] = western[1].split("TOTAL");
            String wtotal2[] = wtotal1[1].split(" ");

            // Appending filtered data into CSV file..
            writer.append("WESTERN" + ",");
            writer.append(year[0] + ",");
            writer.append(month[0] + ",");
            writer.append(wthermal2[4] + ",");
            writer.append(wnuclear2[4] + ",");
            writer.append(whydro2[4] + ",");
            writer.append(wtotal2[4] + "\n");

            // Extracting Southern Region
            String southern[] = page.split("SOUTHERN");

            String sthermal1[] = southern[1].split("THERMAL");
            String sthermal2[] = sthermal1[1].split(" ");

            String snuclear1[] = southern[1].split("NUCLEAR");
            String snuclear2[] = snuclear1[1].split(" ");

            String shydro1[] = southern[1].split("HYDRO");
            String shydro2[] = shydro1[1].split(" ");

            String stotal1[] = southern[1].split("TOTAL");
            String stotal2[] = stotal1[1].split(" ");

            // Appending filtered data into CSV file..
            writer.append("SOUTHERN" + ",");
            writer.append(year[0] + ",");
            writer.append(month[0] + ",");
            writer.append(sthermal2[4] + ",");
            writer.append(snuclear2[4] + ",");
            writer.append(shydro2[4] + ",");
            writer.append(stotal2[4] + "\n");

            // Extracting eastern region
            String eastern[] = page.split("EASTERN");

            String ethermal1[] = eastern[1].split("THERMAL");
            String ethermal2[] = ethermal1[1].split(" ");

            String ehydro1[] = eastern[1].split("HYDRO");
            String ehydro2[] = ehydro1[1].split(" ");

            String etotal1[] = eastern[1].split("TOTAL");
            String etotal2[] = etotal1[1].split(" ");
            // Appending filtered data into CSV file..
            writer.append("EASTERN" + ",");
            writer.append(year[0] + ",");
            writer.append(month[0] + ",");
            writer.append(ethermal2[4] + ",");
            writer.append(" " + ",");
            writer.append(ehydro2[4] + ",");
            writer.append(etotal2[4] + "\n");

            // Extracting northernEastern region
            String neestern[] = page.split("NORTH");

            String nethermal1[] = neestern[2].split("THERMAL");
            String nethermal2[] = nethermal1[1].split(" ");

            String nehydro1[] = neestern[2].split("HYDRO");
            String nehydro2[] = nehydro1[1].split(" ");

            String netotal1[] = neestern[2].split("TOTAL");
            String netotal2[] = netotal1[1].split(" ");

            writer.append("NORTH EASTERN" + ",");
            writer.append(year[0] + ",");
            writer.append(month[0] + ",");
            writer.append(nethermal2[4] + ",");
            writer.append(" " + ",");
            writer.append(nehydro2[4] + ",");
            writer.append(netotal2[4] + "\n");
            writer.close();

        } catch (IOException ioe) {
            ioe.printStackTrace();
        }

    }

java - 使用 PDFBox 解析 PDF 文件（尤其是表格）

19 回答 19

Related

Reference