我正在为一项服务托管一个 mongodb 数据库,该服务支持对具有 680 万条记录的集合进行全文搜索。
它的文本索引包括十个不同权重的字段。
大多数搜索不到一秒钟。有些搜索需要两到三秒钟。但是,有些搜索需要 15 - 60 秒!我的申请无法接受 15-60 秒的搜索案例。我需要找到一种方法来加快这些速度。
当在搜索查询中使用索引中非常常见的词时,搜索需要 15-60 秒。
我似乎文本搜索功能不支持惰性参数。我的第一个想法是在我的文本索引中缓存 50 个最常见单词的列表,然后让 mongodb 评估那些最后(惰性)并在不太常见的参数返回的过滤结果之上。希望人们还在我身边。例如,假设我有一个查询“产品巧克力”,其中产品是常见的,而巧克力是不常见的。我希望能够让 mongodb 先评估“巧克力”,然后用“产品”术语过滤这些结果。有谁知道实现这一目标的方法?
我可以通过从 db 查询中省略最常用的词(即“产品”),然后在收到 db 找到的记录后在应用程序端重新应用常用词过滤器来实现上述场景。最好所有查询逻辑都发生在数据库上,但对应用程序端处理开放以加快速度。
这个设计还有一些漏洞。如果用户只搜索常用术语,我别无选择,只能将所有术语都打到数据库中。从初步阅读来看,我认为不建议(或不支持)在同一个集合上拥有多个文本索引(具有不同的名称)。我的计划是创建两个相同的表,每个表都有我的 680 万条记录,具有不同的索引 - 一个用于常用词,一个用于不常用词。这感觉很笨拙,但我愿意这样做以提高速度。
有没有人对如何加速这个系统有任何见解和/或建议。我希望在数据库上进行尽可能多的处理以保持快速。我确信我的 6.8M 小记录表不是 mongodb 见过的最大的。谢谢!