我想在 PDF 文件中查找文本及其边界框。
似乎效果最好的工具是pdftotext
(基于 XPDF)。
但是,我无法弄清楚如何在没有命令行的情况下使用此工具,也没有找到非命令行 API。我希望能够在不使用系统调用的情况下在 C++ 程序中使用它。
有谁知道如何做到这一点?
pdftotext
(XPDF) 有一个基于Poppler库的(分叉的)兄弟,该库是 10 年前从 XPDF 代码库中分叉的。
Poppler 的源代码库在这里:
在那里你应该很容易找到如何使用 Poppler 的 C++ API。