postgresql - postgresql 不在 text 列上使用 trigram 索引，但在 varchar 列上使用它

Question

所以基本上我设置了一个非常简单的测试表来测试 postgresql 9.1（库存 Debian 稳定版）中的三元组和全文索引功能。

以下是表和索引定义：

-- Table: fulltextproba
-- DROP TABLE fulltextproba;
CREATE TABLE fulltextproba
(
  id integer NOT NULL,
  text text,
  varchar600 character varying(600) COLLATE pg_catalog."C.UTF-8",
  CONSTRAINT id PRIMARY KEY (id )
)
WITH (
  OIDS=FALSE
);

-- Index: id_index
-- DROP INDEX id_index;
CREATE UNIQUE INDEX id_index
  ON fulltextproba
  USING btree
  (id );

-- Index: text_gin_fulltext_hun
-- DROP INDEX text_gin_fulltext_hun;
CREATE INDEX text_gin_fulltext_hun
  ON fulltextproba
  USING gin
  (to_tsvector('hungarian'::text, text) );

-- Index: text_gin_trgm
-- DROP INDEX text_gin_trgm;
CREATE INDEX text_gin_trgm
  ON fulltextproba
  USING gin
  (text COLLATE pg_catalog."C.UTF-8" gin_trgm_ops);

-- Index: varchar600
-- DROP INDEX varchar600;
CREATE INDEX varchar600
  ON fulltextproba
  USING btree
  (varchar600 COLLATE pg_catalog."C.UTF-8" varchar_pattern_ops);

-- Index: varchar600_gin_trgm
-- DROP INDEX varchar600_gin_trgm;
CREATE INDEX varchar600_gin_trgm
  ON fulltextproba
  USING gin
  (varchar600 COLLATE pg_catalog."C.UTF-8" gin_trgm_ops);

我的问题是，如果我进行%foo%应该使用 trigram 索引的搜索，如果我在文本列上搜索，它不会：

SELECT COUNT(id) FROM public.fulltextproba WHERE text LIKE '%almáv%'
 count 
-------
   396
(1 row)

real    0m7.215s
user    0m0.020s
sys 0m0.004s
                                QUERY PLAN                                 
---------------------------------------------------------------------------
 Aggregate  (cost=657056.11..657056.12 rows=1 width=4)
   ->  Seq Scan on fulltextproba  (cost=0.00..657052.72 rows=1355 width=4)
         Filter: (text ~~ '%almáv%'::text)
(3 rows)

但是，如果我在 varchar600 列中进行搜索，它确实使用了三元组索引，而且——并不奇怪——要快得多：

SELECT COUNT(id) FROM public.fulltextproba WHERE varchar600 LIKE '%almáv%'
 count 
-------
   373
(1 row)

real    0m0.184s
user    0m0.052s
sys 0m0.004s
                                         QUERY PLAN                                         
--------------------------------------------------------------------------------------------
 Aggregate  (cost=5283.11..5283.12 rows=1 width=4)
   ->  Bitmap Heap Scan on fulltextproba  (cost=62.50..5279.73 rows=1355 width=4)
         Recheck Cond: ((varchar600)::text ~~ '%almáv%'::text)
         ->  Bitmap Index Scan on varchar600_gin_trgm  (cost=0.00..62.16 rows=1355 width=0)
               Index Cond: ((varchar600)::text ~~ '%almáv%'::text)
(5 rows)

所以最终的问题是：

为什么 postgres 不在文本列上使用三元组索引。
如何使 postgres 使用索引？我应该以其他方式定义它吗？

score 3 · Accepted Answer

text很好。甚至是最好的选择，正如您在EXPLAIN输出中看到的那样：

Index Cond: ((varchar600)::text ~~ '%almáv%'::text)

排序规则不匹配

直接原因可能是排序规则不匹配。您的表已定义：

text text,   -- default collation is ???
varchar600 character varying(600) COLLATE pg_catalog."C.UTF-8"

虽然两个索引都使用COLLATE pg_catalog."C.UTF-8". 您的默认排序规则是什么？输出来自：

SHOW LC_COLLATE;

您可能正在混合不同的排序规则。重新测试：

SELECT COUNT(id) FROM public.fulltextproba
WHERE text COLLATE pg_catalog."C.UTF-8" LIKE '%almáv%'

阅读 Postgres 中的排序规则支持。

测试中的一般问题

您显然在任一列中都有不同的值。用相同的值重复测试。

要强制 Postgres 使用索引，您可以（仅用于在会话中调试！）：

SET enable_seqscan = off;

然后再试一次。细节：

Left Join 横向和数组聚合

Postgres 9.4 中 GIN 索引的展望

即将发布的 Postgres 9.4 对 GIN 索引进行了许多重大改进。特别是，它们将变得更小更快。

postgresql - postgresql 不在 text 列上使用 trigram 索引，但在 varchar 列上使用它

1 回答 1

排序规则不匹配

测试中的一般问题

Postgres 9.4 中 GIN 索引的展望

Related

Reference