c++ - PoDoFo 从pdf中提取文本+坐标

Question

我一直在尝试使用 PoDoFo C++ 库来提取文本和行（以及它们各自的坐标）。但我没有办法做到这一点。

这是我到目前为止所拥有的：

#include <iostream>
#include <stdio.h>
#include <vector>
#include <podofo/podofo.h>
using namespace PoDoFo;
using namespace std;

int main( int argc, char* argv[] )
{
    const char* filename = "hello.pdf";
    PdfVecObjects *x = new PdfVecObjects();
    PdfParser parser(x, filename);
    parser.ParseFile("hello.pdf");

    for (TIVecObjects obj = x->begin(); obj != x->end(); obj++){
        PdfObject * a = x->RemoveObject(obj);
        // THIS IS MY PROBLEM VVVVVVVVVV
        cout << a->Reference().ToString() << endl;
    }

    return 0;
}

然而，这只给了我难以置信的基本信息（似乎是对象编号）

DEBUG: Size=12
DEBUG: Reading numbers: 0 12
DEBUG: Reading XRef Section: 0 with 12 Objects.
DEBUG: Size=12
DEBUG: Reading numbers: 0 12
DEBUG: Reading XRef Section: 0 with 12 Objects.
1 0 R
2 0 R
3 0 R
4 0 R
5 0 R
6 0 R
7 0 R
8 0 R
9 0 R
10 0 R
11 0 R

我想打印出一个对象的坐标，以及它是一行还是文本。如果是文本，我也希望能够打印出文本。有没有比我更了解这个库的人知道我能做些什么来解决这个问题？

score 3 · Accepted Answer

此答案将向您展示如何提取文本。

要获取文本定位信息，您还必须处理以下命令：

Tc, Tw, Tz, TL, T*,Tr和Tm.

您肯定需要从 Adobe 下载PDF 规范以获取所有详细信息。有一章专门介绍文本处理。值得您花时间打印出该章节，因为您会经常提及它。你需要知道的一切都在那里，但并不总是显而易见的。

您还需要使用一点线性代数。不过，没什么太复杂的。

由于有许多方法可以实现相同的结果，因此彻底实施所有命令非常重要，即使您要处理的文档似乎不需要某些功能。例如：我遇到了一个将所有文本大小设置为一个点的文档，这导致我所有的计算都失败了，直到我意识到它正在使用文本缩放因子来设置实际的字体大小。

score 1 · Accepted Answer

使用 PoDoFo 工具“podofotxtextract”它为您提供 x,y 坐标（PoDoFo 包的工具文件夹）。从 Pdf 中提取文本。

c++ - PoDoFo 从pdf中提取文本+坐标

2 回答 2

Related

Reference