0

PDF 文件扩展名可以通过魔术签名来验证:25 50 44 46

但是,我想检测 PDF 是否包含文本或图像(即 PDF 是否包含可以使用 ctrl+f 搜索的文本或是否包含扫描的文档)

有没有办法做到这一点?

4

1 回答 1

1

从技术上讲,您可以解析 PDF 文档结构并查找包含文本的元素。我想这需要付出很大的努力才能实现。

因此,您可能希望使用预制的 PDF 包为您进行解析(PDFBox、BfoPDF 或类似的东西)。不过,我认为这需要一些努力来实施。

我知道的最简单的方法是使用可以为您提取纯文本的包。Apache TIKA 可以做到这一点。只需将文件提供给它,看看你是否能得到一些回报。

在任何情况下,都很难对包含图像和文本的 PDF 进行分类。

于 2013-06-20T14:56:58.940 回答