我有成千上万的简历,我想搜索以“计算机科学”为背景的简历。
所以,我用谷歌搜索并知道 Lucene 可以完成这项工作,我需要将数据提供给 Lucene 并索引所有文档。
在搜索特定文本(例如“计算机科学”)时,它会产生与结果匹配的 CV。
为此,我需要将 MSword-93/MSword-2007/PDF 转换为文本并提供 Lucene。
我可以从 MSword2007 文档中获取文本,但无法从 MSword 2003 获取文本。
有很多 pdf 作家,但我没有任何可以做到这一点的 PDF 阅读器库。
请稍微介绍一下 PDF 阅读器库并将 ms93 文档转换为文本,或者如果 Lucene 搜索有任何替代方案,请告诉我。
谢谢,非常感谢您的回答