搜索引擎(DtSearch、Lucene.net、Sphinx、Google 等)之间的主要区别是什么,它们应该会影响决定使用哪个来搜索专有数据?
要搜索的数据由无显示数据组成,这些数据以名称/值对的形式使用元数据进行标记。我们对各种工具的格式解析能力不感兴趣。此外,搜索结果需要是结构良好、无显示的数据,可以与来自其他(类似结构的存储库)的搜索结果进行聚合。
下面列出了一些需要告知决策的相关搜索引擎特征。欢迎进一步的建议或经验描述。
• 成本 • 易于使用 • 可以配置为仅返回特定标签 • 可以“识别”特定术语,为这些结果提供更高的搜索结果权重 • 快速 < 0.3 秒返回搜索结果或 %E6 记录/文档 • 支持带有类型的标签(find weather='sunny' 但不是personality=sunny) • 支持权重以提供相关性排名 • 按相关性排序返回结果 • 支持同义词 • 支持词干提取 • 支持停用词 • 支持拼写更正 • 适合并行化或索引构建(如果基于索引) • 快速重新索引(如果基于索引) • 快速更新索引(如果基于索引) • 合并来自多个索引的结果(如果基于索引) • 接近度检查:与找到的靠近在一起的单词提供更高的相关性