c - 用 C 阅读 Pdf

Question

我希望能够阅读 pdf 文件的内容。我需要在 Linux 上使用 C 来做到这一点。

我离这里越近，但我认为 Haru 只能创建 pdf 并且无法阅读它们（不是 100% 肯定）。

PS：我只需要pdf中的纯文本

score 4 · Accepted Answer

查看libpoppler。我从来没有使用它来提取文本，只是查询 PDF 属性。它很容易使用。

score 2 · Accepted Answer

你需要多好地解析它们？仅提取字符串应该相对容易，完全准确的渲染更难。看看 evince 或 ghostscript 的来源？

这适用于 C++，但可能是理解 PDF 结构的一个很好的起点http://www.codeproject.com/KB/cpp/ExtractPDFText.aspx（抱歉之前的链接错误）

score 0 · Accepted Answer

虽然我从未使用过它，但另一种可能是 VersyPDF。它声称允许您编辑 PDF ... http://versypdf.sybrex-systems-ltd.qarchive.org/

3 回答 3