4

我希望能够阅读 pdf 文件的内容。我需要在 Linux 上使用 C 来做到这一点。

我离这里越近,但我认为 Haru 只能创建 pdf 并且无法阅读它们(不是 100% 肯定)。

PS:我只需要pdf中的纯文本

4

3 回答 3

4

查看libpoppler。我从来没有使用它来提取文本,只是查询 PDF 属性。它很容易使用。

于 2009-04-21T14:54:01.107 回答
2

你需要多好地解析它们?仅提取字符串应该相对容易,完全准确的渲染更难。看看 evince 或 ghostscript 的来源?

这适用于 C++,但可能是理解 PDF 结构的一个很好的起点http://www.codeproject.com/KB/cpp/ExtractPDFText.aspx(抱歉之前的链接错误)

于 2009-04-21T14:51:10.643 回答
0

虽然我从未使用过它,但另一种可能是 VersyPDF。它声称允许您编辑 PDF ... http://versypdf.sybrex-systems-ltd.qarchive.org/

于 2009-04-21T14:59:55.100 回答