0

我需要创建一个将 pdf 文件转换为 txt 的 C# 或 C++ (MFC) 应用程序。我不仅需要转换,还需要删除页眉、页脚、左边距上的一些垃圾字符等。因此,应用程序允许用户设置页边距以切断不需要的内容。我实际上已经使用 xpdf 创建了这样的应用程序,但是当我尝试将自定义标签插入到提取的文本中以保留斜体和粗体时,它给了我一些问题。也许有人可以提出一些有用的建议?

谢谢。

4

2 回答 2

1

那里有共享软件和免费软件实用程序。尝试获取他们的源代码,或者按原样使用它们。

可以在此处找到 PDF 规范的公共版本:Adobe PDF 规范

PDF共享软件阅读器可以找到:PDF阅读器源代码@SourceForge

于 2011-09-14T18:43:26.710 回答
0

请看Podofo。这是一个 LGPL 许可的库,具有许多强大的编辑功能。其中一个示例 txt2pdf IIRC 是一个好的开始:它显示了基本的文本提取;从那里您可以检查 pre(在 pdf 引擎中)或 post(在文本中)过滤是否足以满足您的目标。我没有使用Pdf Hummus,但它也应该具有这些功能,尽管它不那么简单。

于 2015-02-13T21:46:02.793 回答