可能重复:
如何从 PDF 文档中提取文本?
问题/应用程序:我正在运行 Apache 的 Windows 2008 服务器上使用 PHP/Java 构建系统。这个概念是用户将上传一个 PDF 文件。然后,我希望系统分析上传的 PFD 文件并使用我要设计的算法生成标题/描述。稍后我的搜索引擎将能够搜索存储的标题/描述以找到与搜索相关的 PDF。这将允许我搜索存储的 PDF 文件,而无需在搜索期间访问 PDF。
我需要的是一个脚本或代码,将 PDF 转换为文本并将其存储到一个数组或其他东西,然后我可以分解以获得我需要的东西。
我发现了其他使用 unix/linux 命令行技术的线程。但是,我还没有找到任何脚本可以让我在 Windows 上为 Apache 服务器执行所需的操作。
我可以为此使用的任何建议或替代技术将不胜感激!