8

我们公司有数千份PDF文件。我们如何使用 Lucene、Solr 或 Nutch 创建一个简单的搜索引擎?我们将提供一个基本的 Java/JSP 网页,人们可以输入单词并执行基本和/或查询,然后向他们显示所有匹配 PDF 的文档链接。

4

10 回答 10

8

我在 lucene 上运气不错,但它不是点击、安装和搜索,它确实需要一些工作。
如果您需要可以在 10 分钟内下载和安装并搜索的东西,请查看免费的 Ominifind 雅虎版http://omnifind.ibm.yahoo.net/,它使用 Lucene,但被打包成配置和准备好在安装时运行,这是尝试 Lucene 的一种更简单的方法。

于 2008-10-21T22:06:44.463 回答
6

Nutch 中启用的 Nutch + Lucene + Pdf 插件是您的解决方案。Nutch 允许您通过启用 pdf 插件来解析 pdf。

Lucene 将允许您对爬取和解析的数据进行索引,而 Nutch 具有为您提供搜索界面的 serverlet。

我们对内部局域网使用相同的。

于 2009-06-12T18:22:52.160 回答
3

谷歌搜索设备http://www.google.com/enterprise/gsa/

于 2008-10-21T21:41:47.507 回答
3

Lucene 系列中的所有项目都不能原生处理 PDF,但是您可以使用一些实用程序和编写良好的示例来说明如何滚动您自己的文档。

Lucene 几乎可以完成您需要做的任何事情,但是正如 Tony 上面所说的,您的时间会产生开销。数以千计的文档确实不是很多,因此您可以选择重量更轻的替代品。

也就是说,我仍然建议查看 Solr - 它比 Lucene 设置起来容易得多,支持备份、复制等,以及非常适合您的用例的漂亮 JSON 接口:http: //wiki.apache.org/solr/SolJSON

于 2008-12-17T02:39:03.313 回答
3

我认为您需要一个系统来管理您的 PDF 文件。请尝试使用 dspace 系统。Dspace是一个数字图书馆,它支持基于Lucene。www.dspace.org。

于 2008-12-17T03:10:47.197 回答
2

看看eprints。它包括用于添加新文档、自动索引和缩略图 PDF 的工作流程,并具有相当全面的全文搜索功能。它也可以轻松定制和品牌化。

为什么要重新发明轮子。再次。

于 2008-10-21T21:39:31.913 回答
1

在这个论坛上回答如此广泛的问题将很困难。我建议您查看Lucene in Action一书,它以非常易读的方式介绍了索引和搜索的基础知识。

鉴于您的应用程序,听起来 Nutch 和 Solr 可能不是必需的。由于您的所有文档都可以在本地获得,因此 Nutch 可能不会有帮助。如果您的查询负载很高,Solr 可以帮助您管理搜索器集群,但是 Lucene 具有高性能,并且以非常可扩展的方式处理大型文档集。

可能会耗费您大量精力的一个领域是使用 PDF。可以对 PDF 文档进行索引,并且Lucene 有助于从 PDF 中提取原始文本,但根据文档的不同,结果的质量可能会有所不同。通常,由于格式说明的原因,PDF 文档中关键字的上下文不清楚,这可能会导致难以进行邻近搜索或显示命中的上下文。

于 2008-10-21T21:32:56.043 回答
1

您可能会看到一个很棒的免费搜索技术是 IBM Yahoo! 免费搜索。我不确定他们是否遵循了在幕后使用 Lucene 的计划,但它仍然是使用免费搜索技术的真正伟大的东方之一。我相信它可以处理多达 500K 的文档,并且它还支持 PDF 和其他非文本格式。图形用户界面;易于自定义搜索结果和基本搜索分析。基本词库和强大的 API,因此如果开箱即用的结果不符合您的喜好,您几乎可以做任何您想做的事情。我们已经向一些文档少于 50 万份的客户提出了这个建议,他们很喜欢。

于 2009-08-24T07:16:59.747 回答
0

如果你有一个 Linux 服务器,你可以使用Beagle来索引它们,然后只使用它附带的搜索功能。它有一个(实验性的)网络搜索界面,也可以连接到 FireFox 搜索框。

它会在包含文件时自动为文件编制索引,我怀疑您会发现增强或修复 beagle 比编写自己的 Lucene 搜索界面更有效。

于 2008-10-21T21:27:50.047 回答
-4

拥有在 Mac 上的(恕我直言)明显优势,我在稍旧的 G5 上使用SearchLight 。漂亮的 Web 界面,Mac OS 的内置索引服务。

于 2008-10-21T21:40:42.113 回答