3

我正在寻找一个库(如果可能在 Java 或 PHP 中可用)以便从 PDF 中提取文本。有很多可用的软件,包括:

你会选择哪些工具?你觉得他们怎么样?

非常感谢您的帮助!

4

2 回答 2

3

我最喜欢的是 iText (java),但从 PDF 中提取文本可能会遇到很多困难,因为 PDF 中的文本并不总是按其出现的顺序存储。

于 2010-09-23T11:12:49.683 回答
-1

itext 在从 irs i1040.pdf 正确提取文本时遇到问题,如下所述:

<1> 文章.gmane.org/gmane.comp.java.lib.itext.general/65680

据我所知,当嵌入字体时,并不总是可以提取正确的文本。参见: <2> www.verypdf.com/wordpress/201109/pdf-to-text-converter-cant-extract-text-which-render-by-embedded-fonts-2452.html <3> 9.10.1 节: www.adobe.com/content/dam/Adobe/en/devnet/pdf/pdfs/PDF32000_2008.pdf

<3> 说:

如果未以其中一种方式定义字体...如果没有其他信息,则无法将字符转换为 Unicode 值。

我认为“转换为 unicode 值”对于文本提取至关重要。

于 2013-11-03T03:26:11.713 回答