3

我目前在 PostgreSQL 中有一个全文搜索查询(见下文),它扫描 150 万行的单个表以查找与“所有”术语以及“任何”术语匹配的所有项目。

查询在几乎没有结果的查询上以中等速度(~2-3 秒)正确执行。并且以可怕的速度获得 100,000+ 匹配的结果(约 15-100 秒)

查询首先按术语类型(所有匹配的术语,然后匹配的任何术语)对结果进行排序,然后通过 ts_rank_cd 的相关性计算对结果进行子排序。(以及更简单的变体,它按可以索引的已知列进行排序,例如持续时间)

SELECT
  *,
  ts_rank_cd(textsearchable, query_any_terms) AS relevance,
  textsearchable @@ query_all_terms AS all_terms,
  sum(1) over (PARTITION BY textsearchable @@ query_all_terms) AS match_method_total,
  sum(1) over () AS all_matched_total
FROM
  videos,
  to_tsquery(?) AS query_any_terms,
  to_tsquery(?) AS query_all_terms
WHERE
  website IN (?)
  AND textsearchable @@ query_any_terms
  AND duration_in_seconds >= ?
  AND duration_in_seconds <= ?
ORDER BY
  all_terms DESC, 
  relevance DESC 
LIMIT ? 
OFFSET ?

所有相关列都已编入索引,系统监控显示内存和 cpu 没有得到充分利用,瓶颈似乎是磁盘 IO。

服务器是 Ubuntu Server 10.04。可以根据需要通过后端轻松地动态增加内存和 CPU 功率以满足解决方案。

目前,数据库在生产中是静态的,并且不会在生产服务器上写入数据库。因此,如果有益的话,可以完全准确地生成保持准确的索引。

任何有助于找到任何改进途径的帮助将不胜感激。可应要求及时提供附加信息。

4

1 回答 1

1

使用 tmpfs 将 DB 加载到 ram 中,查询时间大大改善(即,它从大约 100 秒到大约 2 秒)。

见: http ://www.slideshare.net/pgconf/five-steps-perform2009

于 2011-12-01T08:29:54.223 回答