3

所以,我有一个 .pdf 文件,我需要能够确定它是否是通过扫描成 PDF 来创建的。我正在尝试确定它是否是可以显示为文本的 pdf。

我可以使用 PHP 和 Zend。我想我也许可以使用 Zend 的

$pdf->properties['Producer']

但我不是 100% 确定。

有什么方法可以确定我正在处理什么样的 .pdf 文件?

4

2 回答 2

3

对我来说听起来很难。周围有大量不同的“生产者”ID,其中许多支持从任何类型的来源生成 PDF,无论是扫描的、来自传真、文字处理器或诸如此类的来源。创建 PDF 文件的方法有很多种,您永远无法追溯其来源。

如果要确定是否可以将其显示为文本,为什么不尝试从中提取一些实际文本呢?如果它被扫描(或任何其他类型的嵌入图像),它应该没有或只有很少的文本内容。但是,还有一些 OCR 程序可以创建扫描的 PDF,其中也包含机器可读的文本。你想怎么处理?

你的最终目标是什么?

于 2010-03-04T19:34:37.117 回答
0

要确定 PDF 文件是否已被扫描,请使用 Adob​​e Acrobat Reader 打开它。

检查您是否可以选择文本,这表明该文档未被扫描。

在此处输入图像描述

但是,如果您选择文本的尝试恢复为图形选择框,则表明文档已被扫描。

在此处输入图像描述

于 2017-03-27T13:15:22.387 回答