2

搜索引擎(DtSearch、Lucene.net、Sphinx、Google 等)之间的主要区别是什么,它们应该会影响决定使用哪个来搜索专有数据?

要搜索的数据由无显示数据组成,这些数据以名称/值对的形式使用元数据进行标记。我们对各种工具的格式解析能力不感兴趣。此外,搜索结果需要是结构良好、无显示的数据,可以与来自其他(类似结构的存储库)的搜索结果进行聚合。

下面列出了一些需要告知决策的相关搜索引擎特征。欢迎进一步的建议或经验描述。

• 成本 • 易于使用 • 可以配置为仅返回特定标签 • 可以“识别”特定术语,为这些结果提供更高的搜索结果权重 • 快速 < 0.3 秒返回搜索结果或 %E6 记录/文档 • 支持带有类型的标签(find weather='sunny' 但不是personality=sunny) • 支持权重以提供相关性排名 • 按相关性排序返回结果 • 支持同义词 • 支持词干提取 • 支持停用词 • 支持拼写更正 • 适合并行化或索引构建(如果基于索引) • 快速重新索引(如果基于索引) • 快速更新索引(如果基于索引) • 合并来自多个索引的结果(如果基于索引) • 接近度检查:与找到的靠近在一起的单词提供更高的相关性

4

2 回答 2

2

我喜欢 Solr 和 DataImportHandler。它支持您的大部分要点,并且设置起来并不难,只要您不介意编辑一些 XML 配置文件。它比许多企业级搜索引擎更容易。

GSA(Google Search Appliance)没有任何问题,但对于您想要的控制量,Solr 是一个更好的选择。

Lucene/Solr

于 2008-11-21T05:10:06.777 回答
1

关于相关性,Google Search Appliance 允许进行一些调整。他们认为允许过多的调整会导致相关性变差,我相信谷歌知道相关性。

用户不太可能会发现 Google 以外的搜索引擎更易于使用。

于 2008-11-14T09:44:38.270 回答