1

我想开发一个用于商业用途的工具(我打算出售它),其中包括处理文档文件。

操作将包括: 1. 将多个 PDF 文件合并为一个。2.将doc/docx文件转换成PDF文件。3. 将单个 PDF 文件分成 2 个单独的 PDF 文件。4. 对 PDF 文件的页面进行编号(按顺序编号)。

就此而言,我正在寻找一个免费的库或代码来帮助我进行 PDF 操作。我更喜欢库在 C# 中,因为我的软件将在 C# 中,因为它有一些 GUI,但我也将使用 JAVA 库进行管理......

我找到了可以帮助我很多的“pdftk”库,但不幸的是它的许可证不允许商业用途....

有没有人知道可以帮助我的免费库或代码?

非常感谢!!

4

2 回答 2

1

如果你想用java操作PDF,PDFBox是个不错的选择。

您还可以查看支持 java 和 C#的itextpdf 。该库有社区版本。

于 2012-10-13T11:59:49.137 回答
1

看看http://www.foolabs.com/xpdf/download.html上的 pdftotext 。

它提供了将 PDF 文件的内容提取到文本文件中的选项。与其他库相比,它的突出之处在于它在提取的文本文件中保留了 PDF 文件的格式。当您的 PDF 包含诸如表格之类的结构数据并且 PDF 文件未标记时,这非常有用。PDFBox 和其他库在解析 PDF 时无法维护 PDF 内容的结构。

从 PDF 中提取文本文件后,您可以自由地使用自己喜欢的编程语言来解析文本文件。

在此处查看许可政策:http ://www.glyphandcog.com/Xpdf.html 。它明确指出,如果您直接使用可执行文件而不修改源代码,您可以自由地重新分发使用这些可执行文件的应用程序。如果性能不是问题,你不需要接触他们的源代码。

如果性能是一个问题,您可以创建一个应用程序的试用版,它突出了功能,但自然会很慢,因为它会在您每次要处理 PDF 时运行可执行文件。付费版可以直接调用pdftotext api,速度会更快。你可以很容易地弥补花在许可上的钱。如果我是你,我会这样做,但我现在已经有一些大项目在我的盘子里了 :)

我可以为 pdftotext 担保,因为我自己使用过它。所有其他库似乎都忘记了用户可能有兴趣保持 PDF 文件的格式不变。

于 2012-10-13T13:19:02.490 回答