postgresql - 自动更正快速搜索（GIN INDEX 和 PG_TRGM 扩展）

Question

我正在测试一个简单的搜索机制来处理小错别字/拼写错误。类似于自动更正机制。

我为此苦苦挣扎。所以我正在创建一个函数（pl/pgsql）来处理这个问题，并且我在 SUPABASE.IO、PostgreSQL 13.3（类似于 RDS）上运行它。

我想：

将返回的结果限制为仅高度相似的电子邮件地址，例如相似度 > 0.7；
使用 INDEX，因为电子邮件的实际列表将在数千万的数量级，因此它必须在一秒钟内返回。

DROP TABLE IF EXISTS email;
CREATE TABLE email (
  email_address TEXT NOT NULL UNIQUE,
  person_id UUID NOT NULL, 
  CONSTRAINT email_pk PRIMARY KEY (email_address)
);

DROP INDEX IF EXISTS email_address_trigram_idx;
CREATE INDEX email_address_trigram_idx ON email USING gin(email_address gin_trgm_ops);

INSERT INTO email(email_address, person_id) VALUES
  ('test100@gmail.com', uuid_generate_v4())
, ('100test@gmail.com', uuid_generate_v4())
, ('testoo1000@gmail.com', uuid_generate_v4())
, ('test1001@gmail.com', uuid_generate_v4())
, ('test100@gmial.com', uuid_generate_v4())
, ('test200@gmail.com', uuid_generate_v4())
, ('200test@gmail.com', uuid_generate_v4())
, ('testoo2000@gmail.com', uuid_generate_v4())
, ('test2002@gmail.com', uuid_generate_v4())
, ('test200@gmial.com', uuid_generate_v4())
, ('test300@gmail.com', uuid_generate_v4())
, ('300test@gmail.com', uuid_generate_v4())
, ('testoo3000@gmail.com', uuid_generate_v4())
, ('test3003@gmail.com', uuid_generate_v4())
, ('test300@gmial.com', uuid_generate_v4())
, ('test400@gmail.com', uuid_generate_v4())
, ('400test@gmail.com', uuid_generate_v4())
, ('testoo4000@gmail.com', uuid_generate_v4())
, ('test4004@gmail.com', uuid_generate_v4())
, ('test400@gmial.com', uuid_generate_v4())
, ('tset100@gmail.com', uuid_generate_v4())
, ('100tset@gmail.com', uuid_generate_v4())
, ('tsetoo1000@gmail.com', uuid_generate_v4())
, ('tset1001@gmail.com', uuid_generate_v4())
, ('tset100@gmial.com', uuid_generate_v4())
, ('tset200@gmail.com', uuid_generate_v4())
, ('200tset@gmail.com', uuid_generate_v4())
, ('tsetoo2000@gmail.com', uuid_generate_v4())
, ('tset2002@gmail.com', uuid_generate_v4())
, ('tset200@gmial.com', uuid_generate_v4())
, ('tset300@gmail.com', uuid_generate_v4())
, ('300tset@gmail.com', uuid_generate_v4())
, ('tsetoo3000@gmail.com', uuid_generate_v4())
, ('tset3003@gmail.com', uuid_generate_v4())
, ('tset300@gmial.com', uuid_generate_v4())
, ('tset400@gmail.com', uuid_generate_v4())
, ('400tset@gmail.com', uuid_generate_v4())
, ('tsetoo4000@gmail.com', uuid_generate_v4())
, ('tset4004@gmail.com', uuid_generate_v4())
, ('tset400@gmial.com', uuid_generate_v4())
, ('different_email@yahoo.com', uuid_generate_v4());

SET pg_trgm.similarity_threshold = 0.8; -- This doesn't seem to affect my queries

SELECT *, similarity('tesd100@gmail.com', email_address)
FROM email
WHERE email_address % 'tesd100@gmail.com';

我想要一种快速搜索的方法，并且仍然可以容忍搜索中的一些小错别字。

score 2 · Accepted Answer

首先，您的表定义在(email_address). 不。放弃UNIQUE约束，保持PK：

CREATE TABLE email (
  email_address text PRIMARY KEY
, person_id uuid NOT NULL  -- bigint?
);

（也不确定你为什么需要uuid.person_id世界上没有足够的人来证明超过bigint.）

接下来，既然你想...

将返回的结果限制为仅高度相似的电子邮件地址，

我建议最近邻搜索。为此目的创建一个GiST索引而不是 GIN：

CREATE INDEX email_address_trigram_gist_idx ON email USING gist (email_address gist_trgm_ops);

并使用这样的查询：

SELECT *, similarity('tesd100@gmail.com', email_address)
FROM   email
WHERE  email_address % 'tesd100@gmail.com'
ORDER  BY email_address <-> 'tesd100@gmail.com'  -- note the use of the operator <->
LIMIT  10;

引用手册：

这可以通过 GiST 索引非常有效地实现，但不能通过 GIN 索引。当只需要少量最接近的匹配时，它通常会击败第一个公式。

在使用 smallLIMIT时，可能不需要设置pg_trgm.similarity_threshold很高，因为此查询首先为您提供最佳匹配。

有关的：

postgresql - 自动更正快速搜索（GIN INDEX 和 PG_TRGM 扩展）

1 回答 1

Related

Reference