java - 从 PDF 中提取文本：PDFLib vs PDF extract vs pdf2xml

Question

我正在寻找一个库（如果可能在 Java 或 PHP 中可用）以便从 PDF 中提取文本。有很多可用的软件，包括：

3-Heights™ PDF 提取http://www.pdf-tools.com/pdf/pdf-extract-content-metadata-text.aspx
PDFlib TET – 文本提取工具包http://www.pdflib.com/products/tet/
PDF2XML http://sourceforge.net/projects/pdf2xml/

你会选择哪些工具？你觉得他们怎么样？

非常感谢您的帮助！

score 3 · Accepted Answer

我最喜欢的是 iText (java)，但从 PDF 中提取文本可能会遇到很多困难，因为 PDF 中的文本并不总是按其出现的顺序存储。

score -1 · Accepted Answer

itext 在从 irs i1040.pdf 正确提取文本时遇到问题，如下所述：

<1> 文章.gmane.org/gmane.comp.java.lib.itext.general/65680

据我所知，当嵌入字体时，并不总是可以提取正确的文本。参见： <2> www.verypdf.com/wordpress/201109/pdf-to-text-converter-cant-extract-text-which-render-by-embedded-fonts-2452.html <3> 9.10.1 节: www.adobe.com/content/dam/Adobe/en/devnet/pdf/pdfs/PDF32000_2008.pdf

<3> 说：

如果未以其中一种方式定义字体...如果没有其他信息，则无法将字符转换为 Unicode 值。

我认为“转换为 unicode 值”对于文本提取至关重要。

java - 从 PDF 中提取文本：PDFLib vs PDF extract vs pdf2xml

2 回答 2

Related

Reference