Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
PDF 文件扩展名可以通过魔术签名来验证:25 50 44 46
25 50 44 46
但是,我想检测 PDF 是否包含文本或图像(即 PDF 是否包含可以使用 ctrl+f 搜索的文本或是否包含扫描的文档)
有没有办法做到这一点?
从技术上讲,您可以解析 PDF 文档结构并查找包含文本的元素。我想这需要付出很大的努力才能实现。
因此,您可能希望使用预制的 PDF 包为您进行解析(PDFBox、BfoPDF 或类似的东西)。不过,我认为这需要一些努力来实施。
我知道的最简单的方法是使用可以为您提取纯文本的包。Apache TIKA 可以做到这一点。只需将文件提供给它,看看你是否能得到一些回报。
在任何情况下,都很难对包含图像和文本的 PDF 进行分类。