c# - 提取在 PDF-itextsharp 中表示为图像的文本

Question

我正在使用 ITextSharp 从 PDF 文件中提取文本，我已经成功提取了我感兴趣的部分文本，但是当我继续进行“文本”提取时，我注意到一些 TEXT WORDS（在使用 itextsharp 从整个页面中提取整个文本时，我无法获取文本）实际上表示为图像。Adobe Reader 已向我证实了这一点。因此，简而言之：如何提取 PDF Image 对象中包含的文本？我是否必须提取图像并找到另一种将其转换为文本的方法？这对我来说是一个非常糟糕的行星排列。有人遇到过这个问题吗？

score 4 · Accepted Answer

我会说是的，您必须找到另一种方法：如果 pdf 中的“文本”实际上根本不在文本层中，而只是代表某些文本的图像，则您必须提取图像并然后在它们上运行 OCR（光学字符识别，用于从图像生成文本的术语）。ITextSharp 不是 OCR 引擎。（但如果你看的话，确实存在一些免费的 OCR 引擎。）

c# - 提取在 PDF-itextsharp 中表示为图像的文本

1 回答 1

Related

Reference