我正在寻找一个库(如果可能在 Java 或 PHP 中可用)以便从 PDF 中提取文本。有很多可用的软件,包括:
3-Heights™ PDF 提取http://www.pdf-tools.com/pdf/pdf-extract-content-metadata-text.aspx
PDFlib TET – 文本提取工具包http://www.pdflib.com/products/tet/
你会选择哪些工具?你觉得他们怎么样?
非常感谢您的帮助!
我正在寻找一个库(如果可能在 Java 或 PHP 中可用)以便从 PDF 中提取文本。有很多可用的软件,包括:
3-Heights™ PDF 提取http://www.pdf-tools.com/pdf/pdf-extract-content-metadata-text.aspx
PDFlib TET – 文本提取工具包http://www.pdflib.com/products/tet/
你会选择哪些工具?你觉得他们怎么样?
非常感谢您的帮助!
我最喜欢的是 iText (java),但从 PDF 中提取文本可能会遇到很多困难,因为 PDF 中的文本并不总是按其出现的顺序存储。
itext 在从 irs i1040.pdf 正确提取文本时遇到问题,如下所述:
<1> 文章.gmane.org/gmane.comp.java.lib.itext.general/65680
据我所知,当嵌入字体时,并不总是可以提取正确的文本。参见: <2> www.verypdf.com/wordpress/201109/pdf-to-text-converter-cant-extract-text-which-render-by-embedded-fonts-2452.html <3> 9.10.1 节: www.adobe.com/content/dam/Adobe/en/devnet/pdf/pdfs/PDF32000_2008.pdf
<3> 说:
如果未以其中一种方式定义字体...如果没有其他信息,则无法将字符转换为 Unicode 值。
我认为“转换为 unicode 值”对于文本提取至关重要。