我试图更好地理解 PDF 如何存储文本。一般来说,当从 MS Word(或在我的情况下为 SQL Server Reporting Services)等应用程序创建 PDF 时,PDF 如何存储文本?我希望生成的文档在这种特定情况下不会像原始 PDF 文档是从图像创建的那样进行 OCR。
为了更详细一点,我试图了解 PDF 的文本提取器是如何工作的。我对 PDF 的最初理解是它存储了(PostScript)关于如何将文档的“图像”绘制到页面或打印机的说明,并且文档本身中不包含实际的文本。随后,我认为文本提取器可能会对此类指令进行逆向工程,以生成 PDF 否则会生成的文本。不过,我对此没有信心。