我必须将 PDF 转换为文本,目前我正在使用pdftotext.exe
. 这有时会弄乱结果文本,所以我不能使用它。
我可以从另一个程序调用另一个免费工具吗?我更喜欢命令行工具。
根据其构造方式,PDF 转换为文本可能会很棘手,但您可能会从 iTextSharp 或 GhostScript 或商业组件获得良好的结果,例如:来自 www.tallcomponents.com(非附属)
PDF 文件通常不包含任何结构,因此软件需要猜测它。我在http://www.jpedal.org/PDFblog/2009/04/pdf-text/上写了一篇关于这些问题的博文
你也可以试试 PdfBox。
我发现Apache PDFBox比 pdftotext 好得多。它以更接近文档原始格式的方式提取文本。它可以从命令行运行。