我希望能够阅读 pdf 文件的内容。我需要在 Linux 上使用 C 来做到这一点。
我离这里越近,但我认为 Haru 只能创建 pdf 并且无法阅读它们(不是 100% 肯定)。
PS:我只需要pdf中的纯文本
查看libpoppler。我从来没有使用它来提取文本,只是查询 PDF 属性。它很容易使用。
你需要多好地解析它们?仅提取字符串应该相对容易,完全准确的渲染更难。看看 evince 或 ghostscript 的来源?
这适用于 C++,但可能是理解 PDF 结构的一个很好的起点http://www.codeproject.com/KB/cpp/ExtractPDFText.aspx(抱歉之前的链接错误)
虽然我从未使用过它,但另一种可能是 VersyPDF。它声称允许您编辑 PDF ... http://versypdf.sybrex-systems-ltd.qarchive.org/