我最近设置了一个 Linux 服务器,以便能够使用pdftotext
Xpdf 中的命令将基于文本的 PDF 转换为文本,以及使用gs
(Ghostscript) 和tesseract
命令的组合将基于图像的 PDF 转换为文本.
当我已经知道 PDF 是基于文本还是基于图像时,这两种解决方案都能很好地工作。但是,为了自动化将许多 PDF 转换为文本的过程,我需要能够判断 PDF 是基于文本的还是基于图像的,以便我知道要在 PDF 上运行哪一组过程。
PHP中有什么方法可以分析PDF并判断它是基于文本还是基于图像,以便我知道是使用Xpdf还是Ghostscript/Tesseract?