如何将带有 pdf 扩展名的 url 的内容转换为文本以便在 PHP 中解析而无需下载?
我看到如何做到这一点(没有垃圾字符)的唯一方法是将文件下载到服务器文件夹并壳一个可执行文件,将二进制文件转换为文本。
以下是我找到的一些可执行库:TET,文本提取工具包 xpdf
我宁愿在不先下载 pdf 的情况下转换 URL pdf(例如打开二进制文件然后转换)。
有没有办法在不下载 PHP 中的 pdf 的情况下做到这一点?
推荐什么方法以最快的执行时间?
作为一个简短的说明,我将做大约 64 个带有 pdf 扩展名的 URL,并不是所有这些 url 实际上都指向 pdf。实际上,其中一些 url 可能指向别名 html 页面,不一定是 pdf 文件,因此在使用转换工具之前需要辨别差异。