跨富媒体文件执行全文搜索的最佳方式是什么?我正在尝试实现一个系统,用户可以在该系统中上传随机文件(.doc、.pdf、.jpg,...),然后他将能够根据文件内容或元数据搜索它们。
我将不胜感激有关如何构建它的一些想法。
PS - 我开始研究 Lucene 和 Nutch,但我认为它们做的比我需要的要多。
谢谢你。
跨富媒体文件执行全文搜索的最佳方式是什么?我正在尝试实现一个系统,用户可以在该系统中上传随机文件(.doc、.pdf、.jpg,...),然后他将能够根据文件内容或元数据搜索它们。
我将不胜感激有关如何构建它的一些想法。
PS - 我开始研究 Lucene 和 Nutch,但我认为它们做的比我需要的要多。
谢谢你。
您应该看看 Tika ( http://lucene.apache.org/tika/ ),它是一个用于检测和提取元数据和结构化文本的工具包。