php - 使用 PHP 将 PDF 转为文本 - Windows Server

Question

可能重复：
如何从 PDF 文档中提取文本？

问题/应用程序：我正在运行 Apache 的 Windows 2008 服务器上使用 PHP/Java 构建系统。这个概念是用户将上传一个 PDF 文件。然后，我希望系统分析上传的 PFD 文件并使用我要设计的算法生成标题/描述。稍后我的搜索引擎将能够搜索存储的标题/描述以找到与搜索相关的 PDF。这将允许我搜索存储的 PDF 文件，而无需在搜索期间访问 PDF。

我需要的是一个脚本或代码，将 PDF 转换为文本并将其存储到一个数组或其他东西，然后我可以分解以获得我需要的东西。

我发现了其他使用 unix/linux 命令行技术的线程。但是，我还没有找到任何脚本可以让我在 Windows 上为 Apache 服务器执行所需的操作。

我可以为此使用的任何建议或替代技术将不胜感激！

score 0 · Accepted Answer

由于文本在其中的表示方式（作为二维表面上的绘图指令），将 PDF 文件转换为纯文本是有问题的，尤其是当源是多列时。

您可以使用许多开源工具和专有工具，但是在查看了所有工具之后，我可以自信地声明没有一个适用于所有情况。Google 搜索“PDF 到文本转换”会显示其中的大部分内容。

您可能还希望探索使用内置 PDF 转换的文本搜索引擎，如 SOLR 或弹性搜索，它们都是开源的并且基于 Apache Lucene。同样，谷歌搜索任何一个都会指向你他们各自的主页。

php - 使用 PHP 将 PDF 转为文本 - Windows Server

1 回答 1

Related

Reference