9

我正在为一项服务托管一个 mongodb 数据库,该服务支持对具有 680 万条记录的集合进行全文搜索。

它的文本索引包括十个不同权重的字段。

指标规范

大多数搜索不到一秒钟。有些搜索需要两到三秒钟。但是,有些搜索需要 15 - 60 秒!我的申请无法接受 15-60 秒的搜索案例。我需要找到一种方法来加快这些速度。

当在搜索查询中使用索引中非常常见的词时,搜索需要 15-60 秒。

我似乎文本搜索功能不支持惰性参数。我的第一个想法是在我的文本索引中缓存 50 个最常见单词的列表,然后让 mongodb 评估那些最后(惰性)并在不太常见的参数返回的过滤结果之上。希望人们还在我身边。例如,假设我有一个查询“产品巧克力”,其中产品是常见的,而巧克力是不常见的。我希望能够让 mongodb 先评估“巧克力”,然后用“产品”术语过滤这些结果。有谁知道实现这一目标的方法?

我可以通过从 db 查询中省略最常用的词(即“产品”),然后在收到 db 找到的记录后在应用程序端重新应用常用词过滤器来实现上述场景。最好所有查询逻辑都发生在数据库上,但对应用程序端处理开放以加快速度。

这个设计还有一些漏洞。如果用户只搜索常用术语,我别无选择,只能将所有术语都打到数据库中。从初步阅读来看,我认为不建议(或不支持)在同一个集合上拥有多个文本索引(具有不同的名称)。我的计划是创建两个相同的表,每个表都有我的 680 万条记录,具有不同的索引 - 一个用于常用词,一个用于不常用词。这感觉很笨拙,但我愿意这样做以提高速度。

有没有人对如何加速这个系统有任何见解和/或建议。我希望在数据库上进行尽可能多的处理以保持快速。我确信我的 6.8M 小记录表不是 mongodb 见过的最大的。谢谢!

4

2 回答 2

11

好吧,我通过允许 MongoDB 全文搜索以基于 OR 的格式搜索来解决这些性能问题。我通过微调索引字段的权重并仅按排名排序来确定我的结果的优先级。我确实得到了比预期更多的结果,但这不是一个大问题,因为我出现在顶部的加权结果很可能会在我的用户在底部获得不太相关的结果之前被消耗掉。

如果有人只使用 AND 搜索来解决 MongoDB 文本搜索性能问题,只需切换回 OR 并使用权重控制您的结果。它的飞跃性能更好。

hth

于 2013-08-27T00:47:50.603 回答
0

这与 $all 与 $in 完全相同。$all 仅使用数组中第一个关键字的索引。我相信您在这里看到了同样的问题,为什么 OR aka IN 适合您。

于 2014-07-09T02:27:42.917 回答