search - 应该影响决定使用哪个搜索专有数据的搜索引擎之间的主要区别是什么？

Question

搜索引擎（DtSearch、Lucene.net、Sphinx、Google 等）之间的主要区别是什么，它们应该会影响决定使用哪个来搜索专有数据？

要搜索的数据由无显示数据组成，这些数据以名称/值对的形式使用元数据进行标记。我们对各种工具的格式解析能力不感兴趣。此外，搜索结果需要是结构良好、无显示的数据，可以与来自其他（类似结构的存储库）的搜索结果进行聚合。

下面列出了一些需要告知决策的相关搜索引擎特征。欢迎进一步的建议或经验描述。

• 成本 • 易于使用 • 可以配置为仅返回特定标签 • 可以“识别”特定术语，为这些结果提供更高的搜索结果权重 • 快速 < 0.3 秒返回搜索结果或 %E6 记录/文档 • 支持带有类型的标签（find weather='sunny' 但不是personality=sunny） • 支持权重以提供相关性排名 • 按相关性排序返回结果 • 支持同义词 • 支持词干提取 • 支持停用词 • 支持拼写更正 • 适合并行化或索引构建（如果基于索引） • 快速重新索引（如果基于索引） • 快速更新索引（如果基于索引） • 合并来自多个索引的结果（如果基于索引） • 接近度检查：与找到的靠近在一起的单词提供更高的相关性

score 2 · Accepted Answer

我喜欢 Solr 和 DataImportHandler。它支持您的大部分要点，并且设置起来并不难，只要您不介意编辑一些 XML 配置文件。它比许多企业级搜索引擎更容易。

GSA（Google Search Appliance）没有任何问题，但对于您想要的控制量，Solr 是一个更好的选择。

Lucene/Solr

score 1 · Accepted Answer

关于相关性，Google Search Appliance 允许进行一些调整。他们认为允许过多的调整会导致相关性变差，我相信谷歌知道相关性。

用户不太可能会发现 Google 以外的搜索引擎更易于使用。

search - 应该影响决定使用哪个搜索专有数据的搜索引擎之间的主要区别是什么？

2 回答 2

Related

Reference