12

嗨,我正在尝试从一些 pdf 中解析一些文本,我想使用 PoDoFo,现在我尝试搜索如何使用 PoDoFo 解析 pdf 的示例,但是我能想出的只是如何创建的示例并写一个不是我真正需要的pdf文件。

如果有人有任何使用 PoDoFo 解析 PDF 文件的教程或示例,或者对我可以使用的不同库有建议,请告诉我。我也知道 linux 上有 pdftotext,但是,我不仅不能使用它,而且我更愿意能够在内部完成我需要做的一切,而不是依赖正在安装的外部程序。

4

2 回答 2

43

PoDoFo 没有提供从文档中轻松提取文本的方法,但这并不难。

将文档加载到PdfMemDocument

PoDoFo::PdfMemDocument pdf("mydoc.pdf");

遍历每一页:

for (int pn = 0; pn < pdf.GetPageCount(); ++pn) {
    PoDoFo::PdfPage* page = pdf.GetPage(pn);

遍历该页面上的所有 PDF 命令:

    PoDoFo::PdfContentsTokenizer tok(page);
    const char* token = nullptr;
    PoDoFo::PdfVariant var;
    PoDoFo::EPdfContentsType type;
    while (tok.ReadNext(type, token, var)) {
        switch (type) {
            case PoDoFo::ePdfContentsType_Keyword:
                // process token: it contains the current command
                //   pop from var stack as necessary
                break;
            case PoDoFo::ePdfContentsType_Variant:
                // process var: push it onto a stack
                break;
            default:
                // should not happen!
                break;
        }
    }
}

“进程令牌”和“进程变量”注释是它变得更复杂的地方。您将获得要处理的原始 PDF 命令。幸运的是,如果您实际上并没有呈现页面并且您想要的只是文本,那么您可以忽略其中的大部分。您需要处理的命令是:

BT, ET, Td, TD, Ts, T, Tm, Tf, ", ',TjTJ

BTand命令标记文本流的ET开始和结束,因此您要忽​​略不在BT/ET对之间的任何内容。

PDF 语言是基于 RPN 的。命令流由压入堆栈的值和将值从堆栈中弹出并处理它们的命令组成。

"和命令是唯一实际生成文本的命令'。,并返回一个字符串。使用和处理它。TjTJ"'Tjvar.IsString()var.GetString()

TJ返回一个字符串数组。您可以使用以下方法提取每个:

if (var.isArray()) {
    PoDoFo::PdfArray& a = var.GetArray();
    for (size_t i = 0; i < a.GetSize(); ++i)
        if (a[i].IsString())
            // do something with a[i].GetString()

其他命令用于确定何时引入换行符。"'引入换行符。最好的办法是从 Adob​​e 下载 PDF 规范并查找文本处理部分。它更详细地解释了每个命令的作用。

我发现编写一个小程序非常有帮助,该程序采用 PDF 文件并转储每个页面的命令流。

注意:如果您所做的只是提取没有定位信息的原始文本,那么您实际上不需要维护一堆var值。所有的文本渲染命令最多只有一个参数。您可以简单地假设最后一个值var包含当前命令的参数。

于 2012-07-30T10:15:09.683 回答
4

我没有使用过 PoDoFo,但快速浏览其 API 网页上的类层次结构会发现:

void PoDoFo::PdfMemDocument::Load( const char * pszFilename )

API 文档链接

所以我在这里冒险猜测一下,你这样做:

PoDoFo::PdfMemDocument doc;
doc.Load( "somefile.pdf" );

doc.GetObjects()然后我想你通过调用并遍历该数组来导航文档树(请参阅 PdfDocument 类

于 2012-07-30T05:49:01.483 回答