-5

我有成千上万的简历,我想搜索以“计算机科学”为背景的简历。

所以,我用谷歌搜索并知道 Lucene 可以完成这项工作,我需要将数据提供给 Lucene 并索引所有文档。

在搜索特定文本(例如“计算机科学”)时,它会产生与结果匹配的 CV。

为此,我需要将 MSword-93/MSword-2007/PDF 转换为文本并提供 Lucene。

我可以从 MSword2007 文档中获取文本,但无法从 MSword 2003 获取文本。

有很多 pdf 作家,但我没有任何可以做到这一点的 PDF 阅读器库。

请稍微介绍一下 PDF 阅读器库并将 ms93 文档转换为文本,或者如果 Lucene 搜索有任何替代方案,请告诉我。

谢谢,非常感谢您的回答

4

1 回答 1

0

您可以使用Apache Solr或直接使用Tika从 PDF 和 MS Word 中提取文本并将其编入索引。两者都是 Java 项目,但您可以从 PHP 调用它们的服务器。

于 2012-05-22T10:01:03.930 回答