2

我必须将 PDF 转换为文本,目前我正在使用pdftotext.exe. 这有时会弄乱结果文本,所以我不能使用它。

我可以从另一个程序调用另一个免费工具吗?我更喜欢命令行工具。

4

3 回答 3

3

根据其构造方式,PDF 转换为文本可能会很棘手,但您可能会从 iTextSharp 或 GhostScript 或商业组件获得良好的结果,例如:来自 www.tallcomponents.com(非附属)

于 2012-01-17T09:00:40.603 回答
1

PDF 文件通常不包含任何结构,因此软件需要猜测它。我在http://www.jpedal.org/PDFblog/2009/04/pdf-text/上写了一篇关于这些问题的博文

你也可以试试 PdfBox。

于 2012-01-17T12:27:13.387 回答
0

我发现Apache PDFBox比 pdftotext 好得多。它以更接近文档原始格式的方式提取文本。它可以从命令行运行。

于 2013-04-10T13:40:27.447 回答