0

我正在尝试为来自精神组织的一组特定文献/引用/等创建一个在线搜索,虽然可以搜索的项目数量(主要是 PDF、HTML 或纯文本)是有限的,但我想提供全面的搜索过滤器(Kayak.com 风格)。

这意味着我的数据需要以一种易于按作者姓名、来源类型(无论是书籍、演讲、引文等)、时间和地点以及其他过滤器过滤的方式进行组织。这意味着,每个文献条目都必须与此“附加信息”相关联。

我的问题是,我该如何构建这个搜索引擎?我听说过 Lucerine,最近还发现了 Searcharoo,这是一个用于搜索的 .NET 库,它将索引我位于本地目录中的所有 PDF 文件。

我想知道我是否应该使用 Searcharoo,或者我是否应该简单地创建自己的数据库来存储文件路径,并查询包含 PDF 文件文本的列。或者我可以使用 Searcharoo 或类似的东西,并且仍然能够使用存储在数据库中的附加信息来标记每个索引文件吗?还是我应该采取完全不同的方法?

我将不胜感激对此的任何意见...

谢谢!

4

2 回答 2

0

我使用Lucene.NET来制作包含附加元数据的全文索引。如果您不介意使用 Java 端口,它是稳定的、快速的,并且记录得当。

于 2009-07-07T00:10:51.030 回答
0

我听说CouchDB是为此而设计的,但老实说,我以前从未使用过它。

于 2009-07-06T23:55:29.920 回答