根据该站点http://www.searchable-pdf.com/content.php?lang=en&c=61,添加文本层后可以搜索 PDF。
我正在寻找 PDF 的技术规范。我认为文本可以以两种方式存储到 PDF 中:a)作为图像层上方的文本层(如上面的网页中所述)b)当您从 Word 文档(带文本)创建 PDF 时,我不t 认为 Word 会将所有文本存储在文本层中。我认为它会将其存储在图像层中?正确的?
从 PDF 1.4 开始,添加了 XMP (http://en.wikipedia.org/wiki/Extensible_Metadata_Platform)。但是什么是 XMP?这是我上面讨论的“文本层”吗?
如果扫描仪正在对图像执行 OCR,它是否将文本存储在“文本层”中?还是“XMP”字段?这只能在 PDF 版本为 1.4 时出现?
以及如何检测 PDF 是否已经包含文本数据?例如:PDF A 已使用 OCR 进行扫描,而 PDF B 则没有。我怎么知道应该将 PDF B 发送到单独的 OCR 引擎?