5

我是 Symfony 开发人员,我的 Web 服务器是 Linux。我已经使用了 sfLucene 插件。

在 Linux PHP 服务器上索引 PDF 文件以进行搜索的最简单方法是什么?

  1. XPDF像这样安装
  2. Apache Tika通过SOLR sfLucene 插件分支
  3. 第三种选择?

谢谢!

4

2 回答 2

3

来自 Zend 背景,我通常推荐使用 Zend_Search_Lucene。XPDF 示例非常简单明了,看起来很简单。XPDF 被许可为 GPL - 如果这符合您的需要,请选择 #1!

ZF 可以很容易地集成到您的 Symfony 项目中,例如用于Twitter 通话

于 2010-03-02T16:15:49.143 回答
2

有许多用于从 PDF 中提取文本内容的库。使用其中任何一个,您需要创建一个包含内容的 lucene 文档。最有用的是那些已经集成了 lucene 的。

Apache PDFBox 可以直接从 PDF 文件创建 lucene文档。它将包括 PDF 元数据字段以及文本内容。

于 2010-03-03T15:51:52.673 回答