c++ - 有没有办法使用 libpoppler 分别访问页眉、页脚和页面内容？

Question

我正在使用 libpoppler 将 PDF 文件解析为纯文本，我想分别输出页眉、页脚和内容，我该怎么做？是否有任何结构或类来容纳它们？

提前致谢！！

score 1 · Accepted Answer

您可以使用poppler_page_get_text(). 之后可以解析纯文本吗？这是一个示例代码。它不是 C++，但希望你能看到这个想法。

在 Debian Unstable amd64、libpoppler-glib-dev 0.18.4-3、gcc 4.7.1-7 上测试

$ gcc -Wall -g -Wextra get-text.c $(pkg-config --cflags --libs poppler-glib)

#include <poppler.h>
#include <glib.h>

int main(int argc, char *argv[])
{
    GError *error = NULL;
    PopplerDocument *d;
    PopplerPage *p;
    gchar *f;
    gchar *u;

    g_type_init();

    if (argc < 2)
            g_error("oops: no file name given");

    if (g_path_is_absolute(argv[1]))
            f = argv[1];
    else
            f = g_build_filename(g_get_current_dir(), argv[1], NULL);

    u = g_filename_to_uri(f, NULL, &error);
    if (!u)
            g_error("oops: %s", error->message);

    d = poppler_document_new_from_file(u, NULL, &error);
    if (!d)
            return -1;

    p = poppler_document_get_page(d, 1);
    g_print("%s\n", poppler_page_get_text(p));

    return 0;
}

score 0 · Accepted Answer

0

并不真地。PDF 没有页眉、页脚和正文的概念（除非您创建标记的 PDF）。

于 2012-02-20T13:12:44.127 回答

score 0 · Accepted Answer

免责声明：这可能不是一个好的答案

上次我检查 libpoppler 只是一个很好的渲染器，它可以将 pdf 页面视为一系列矢量绘图操作。从这个意义上说，它应该可以拦截文本绘制操作，从而以某种方式报告文本。但从矢量的角度来看，我不认为页面页眉/页脚中的文本有什么特别之处。另外，我已经看到很多非常昂贵的 pdf 到文本转换器程序在这方面都失败了。

c++ - 有没有办法使用 libpoppler 分别访问页眉、页脚和页面内容？

3 回答 3

Related

Reference