symfony1 - Lucene 搜索有什么好的选择？

Question

我有成千上万的简历，我想搜索以“计算机科学”为背景的简历。

所以，我用谷歌搜索并知道 Lucene 可以完成这项工作，我需要将数据提供给 Lucene 并索引所有文档。

在搜索特定文本（例如“计算机科学”）时，它会产生与结果匹配的 CV。

为此，我需要将 MSword-93/MSword-2007/PDF 转换为文本并提供 Lucene。

我可以从 MSword2007 文档中获取文本，但无法从 MSword 2003 获取文本。

有很多 pdf 作家，但我没有任何可以做到这一点的 PDF 阅读器库。

请稍微介绍一下 PDF 阅读器库并将 ms93 文档转换为文本，或者如果 Lucene 搜索有任何替代方案，请告诉我。

谢谢，非常感谢您的回答

score 0 · Accepted Answer

您可以使用Apache Solr或直接使用Tika从 PDF 和 MS Word 中提取文本并将其编入索引。两者都是 Java 项目，但您可以从 PHP 调用它们的服务器。

1 回答 1