2

我正在使用 ITextSharp 从 PDF 文件中提取文本,我已经成功提取了我感兴趣的部分文本,但是当我继续进行“文本”提取时,我注意到一些 TEXT WORDS(在使用 itextsharp 从整个页面中提取整个文本时,我无法获取文本)实际上表示为图像。Adobe Reader 已向我证实了这一点。因此,简而言之:如何提取 PDF Image 对象中包含的文本?我是否必须提取图像并找到另一种将其转换为文本的方法?这对我来说是一个非常糟糕的行星排列。有人遇到过这个问题吗?

4

1 回答 1

4

我会说是的,您必须找到另一种方法:如果 pdf 中的“文本”实际上根本不在文本层中,而只是代表某些文本的图像,则您必须提取图像并然后在它们上运行 OCR(光学字符识别,用于从图像生成文本的术语)。ITextSharp 不是 OCR 引擎。(但如果你看的话,确实存在一些免费的 OCR 引擎。)

于 2013-06-07T15:11:00.960 回答