0

可能重复:
如何从 PDF 文档中提取文本?

问题/应用程序:我正在运行 Apache 的 Windows 2008 服务器上使用 PHP/Java 构建系统。这个概念是用户将上传一个 PDF 文件。然后,我希望系统分析上传的 PFD 文件并使用我要设计的算法生成标题/描述。稍后我的搜索引擎将能够搜索存储的标题/描述以找到与搜索相关的 PDF。这将允许我搜索存储的 PDF 文件,而无需在搜索期间访问 PDF。

我需要的是一个脚本或代码,将 PDF 转换为文本并将其存储到一个数组或其他东西,然后我可以分解以获得我需要的东西。

我发现了其他使用 unix/linux 命令行技术的线程。但是,我还没有找到任何脚本可以让我在 Windows 上为 Apache 服务器执行所需的操作。

我可以为此使用的任何建议或替代技术将不胜感激!

4

1 回答 1

0

由于文本在其中的表示方式(作为二维表面上的绘图指令),将 PDF 文件转换为纯文本是有问题的,尤其是当源是多列时。

您可以使用许多开源工具和专有工具,但是在查看了所有工具之后,我可以自信地声明没有一个适用于所有情况。Google 搜索“PDF 到文本转换”会显示其中的大部分内容。

您可能还希望探索使用内置 PDF 转换的文本搜索引擎,如 SOLR 或弹性搜索,它们都是开源的并且基于 Apache Lucene。同样,谷歌搜索任何一个都会指向你他们各自的主页。

于 2012-11-16T18:03:42.650 回答