4

varchar[]在 Postgres 9.2 中使用列(varchar 数组)来存储一些标签。在按标签检索行时,我希望查询不区分大小写。但是,我想保留案例以在 UI 中显示(因此我不能将所有内容都存储为小写)。

所以,我的问题是如何在 Postgres 中通过 varchar 数组创建不区分大小写的索引?一种可能的方法是在列上创建一个功能性 GIN 索引。如何做到这一点?还有其他方法吗?

4

3 回答 3

6

@Saurabh Nanda:与您发布的内容类似,您还可以创建一个简单的函数将 varchar 数组转换为小写,如下所示:

CREATE OR REPLACE FUNCTION array_lowercase(varchar[]) RETURNS varchar[] AS
$BODY$
  SELECT array_agg(q.tag) FROM (
    SELECT btrim(lower(unnest($1)))::varchar AS tag
  ) AS q;
$BODY$
  language sql IMMUTABLE;

请注意,我还修剪了空格的标签。这对您来说可能不是必需的,但我通常这样做是为了保持一致性。

测试:

SELECT array_lowercase(array['Hello','WOrLD']);
 array_lowercase 
-----------------
 {hello,world}
(1 row)

正如 Saurabh 所说,您可以创建一个 GIN 索引:

CREATE INDEX ix_tags ON tagtable USING GIN(array_lowercase(tags));

并查询:

SELECT * FROM tagtable WHERE ARRAY['mytag'::varchar] && array_lowercase(tags);

更新:WHILE vs array_agg/unnest的性能

我创建了 100K 10 个元素text[]数组(12 个字符随机混合大小写字符串)的表并测试了每个函数。

array_agg/unnest 函数返回:

EXPLAIN ANALYZE VERBOSE SELECT array_lowercase(data) FROM test;
                                                       QUERY PLAN                                                       
------------------------------------------------------------------------------------------------------------------------
 Seq Scan on public.test  (cost=0.00..28703.00 rows=100000 width=184) (actual time=0.320..3041.292 rows=100000 loops=1)
   Output: array_lowercase((data)::character varying[])
 Total runtime: 3174.690 ms
(3 rows)

WHILE 函数返回:

EXPLAIN ANALYZE VERBOSE SELECT array_lowercase_while(data) FROM test;
                                                       QUERY PLAN                                                       
------------------------------------------------------------------------------------------------------------------------
 Seq Scan on public.test  (cost=0.00..28703.00 rows=100000 width=184) (actual time=5.128..4356.647 rows=100000 loops=1)
   Output: array_lowercase_while((data)::character varying[])
 Total runtime: 4485.226 ms
(3 rows)

更新 2: FOREACHWHILE 作为最后的实验,我将 WHILE 函数更改为使用 FOREACH:

CREATE OR REPLACE FUNCTION array_lowercase_foreach(p_input varchar[]) RETURNS varchar[] AS $BODY$
DECLARE
    el text;
    r varchar[];
BEGIN
    FOREACH el IN ARRAY p_input LOOP
        r := r || btrim(lower(el))::varchar;
    END LOOP;
    RETURN r;
END;
$BODY$
  language 'plpgsql'

结果似乎类似于WHILE

EXPLAIN ANALYZE VERBOSE SELECT array_lowercase_foreach(data) FROM test;
                                                       QUERY PLAN                                                       
------------------------------------------------------------------------------------------------------------------------
 Seq Scan on public.test  (cost=0.00..28703.00 rows=100000 width=184) (actual time=0.707..4106.867 rows=100000 loops=1)
   Output: array_lowercase_foreach((data)::character varying[])
 Total runtime: 4239.958 ms
(3 rows)

虽然我的测试并不严格,但我确实多次运行每个版本,发现数字具有代表性,这表明 SQL 方法(array_agg/unnest)是最快的。

于 2013-04-15T15:56:06.890 回答
1

使用自定义 pgplsql 函数找到了一种可能的方法:

首先声明一个自定义函数,该函数将 varchar[] 数组作为输入,并返回一个所有元素都转换为小写的新数组。(这是我第一次编写 PL/SQL,所以这可能是非常低效的代码)。

CREATE OR REPLACE FUNCTION array_lowercase(varchar[]) RETURNS varchar[] AS $$
DECLARE
    i INTEGER;
    l INTEGER;
    r VARCHAR[];
    inp ALIAS FOR $1;
BEGIN
    i := 1;
    l := array_length($1, 1);
    WHILE i <= l LOOP
        r[i] = lower(inp[i]);
        i := i + 1;
    END LOOP;
    RETURN r;
END;
$$ LANGUAGE plpgsql IMMUTABLE;

array_lowercase接下来,使用新定义的函数在表达式上创建 GIN 索引:

create index hotel_bookings_tags on hotel_bookings using gin(array_lowercase(tags));

现在在查询中使用它(使用 EXPLAIN 验证它是否使用索引):

select * from posts where array[(varchar 'some_tag')] && array_lowercase(tags);
于 2013-04-15T15:24:43.897 回答
0

不确定它是否有帮助,但我正在搜索类似的东西text[],并使用了类型转换:

select id from product where lower(tags::text)::text[] && array['tat'];
于 2017-03-28T13:59:52.567 回答