regex - 我可以使用正则表达式来匹配一组值吗？

Question

我想检查集合中的每个元素是否包含在列中行的任何部分中。例如，

设置 A = {5013, aab, 402dha)

B栏

阿达夫**5013**dad344  
23**aab**yyyy  
zzz**402dha**vuuuda  
......  
...

我不能使用“A 中的 B 列”，因为有前导字符和尾随字符；
我不能使用 TRIM、SUBSTRING，因为我要搜索的元素可以在列行的任何部分；
当 A 只有 3 个元素时，我可以在 where 子句中编写 3 个正则表达式，但当 A 有约 1000 个元素时，我不能这样做。

我的问题是是否有办法做到这一点？或者 Excel 中是否有类似“VLookup”的功能？

我会很感激任何想法！

score 5 · Accepted Answer

这是一个非常可怕的模式。通过更改它可以获得最佳结果，以便您将多个值存储在：

普通关系子表；
数组；或者
hstore

所有这些都允许您使用相当简单和健全的 SQL 表达式来确定您想要什么，并且是可索引的（通过子表的常规 b-tree 索引，以及通过数组和 hstore 的 GiST 或 GIN 索引）以在大型表上获得更好的性能.

这当然是可能的，但性能会很糟糕。一种方法是使用regexp_split_to_array将列转换为数组，然后使用数组运算符来测试重叠。

请参阅此 SQLFiddle 演示，它使用扩展的测试集，因为您的测试集不足以证明问题。

我已经显示了“任何集合出现在列中”（%%）和“所有集合都出现在列中”（@>），因为从您想要的问题中不清楚。

设置：

CREATE TABLE test(gah text);

INSERT INTO test(gah) VALUES
('adaf**5013**dad344'),
('23**aab**yyyy'),
('zzz**402dha**vuuuda'),
('no**matches**here**lalala'),
('5013**aab**402dha'),
('402dha**aab**somethingelse**5013'),
('402dha**aab**5013');

演示：

regress=> SELECT gah FROM test 
          WHERE regexp_split_to_array(gah, '\*\*') && ARRAY['5013', 'aab', '402dha'];
               gah                
----------------------------------
 adaf**5013**dad344
 23**aab**yyyy
 zzz**402dha**vuuuda
 5013**aab**402dha
 402dha**aab**somethingelse**5013
 402dha**aab**5013
(6 rows)

regress=> SELECT gah FROM test 
          WHERE regexp_split_to_array(gah, '\*\*') @> ARRAY['5013', 'aab', '402dha'];
               gah                
----------------------------------
 5013**aab**402dha
 402dha**aab**somethingelse**5013
 402dha**aab**5013
(3 rows)

令人惊讶的是，您实际上可以通过利用 PostgreSQL 对表达式索引的支持来创建一个有益于该查询的索引。当然，仅仅因为你能做到并不意味着这是一个好主意：

regress=> CREATE INDEX test_glah_resplit_gin ON test 
          USING GIN(( regexp_split_to_array(gah, '\*\*') ));
CREATE INDEX
regress=> -- Only for testing purposes, don't use in production:
regress=> SET enable_seqscan = off;
SET
regress=> explain SELECT gah FROM test WHERE regexp_split_to_array(gah, '\*\*') @> ARRAY['5013', 'aab', '402dha'];
                                          QUERY PLAN                                           
-----------------------------------------------------------------------------------------------
 Bitmap Heap Scan on test  (cost=16.00..20.02 rows=1 width=32)
   Recheck Cond: (regexp_split_to_array(gah, '\*\*'::text) @> '{5013,aab,402dha}'::text[])
   ->  Bitmap Index Scan on test_glah_resplit_gin  (cost=0.00..16.00 rows=1 width=0)
         Index Cond: (regexp_split_to_array(gah, '\*\*'::text) @> '{5013,aab,402dha}'::text[])
(4 rows)

regress=> explain SELECT gah FROM test WHERE regexp_split_to_array(gah, '\*\*') && ARRAY['5013', 'aab', '402dha'];
                                          QUERY PLAN                                           
-----------------------------------------------------------------------------------------------
 Bitmap Heap Scan on test  (cost=16.00..20.02 rows=1 width=32)
   Recheck Cond: (regexp_split_to_array(gah, '\*\*'::text) && '{5013,aab,402dha}'::text[])
   ->  Bitmap Index Scan on test_glah_resplit_gin  (cost=0.00..16.00 rows=1 width=0)
         Index Cond: (regexp_split_to_array(gah, '\*\*'::text) && '{5013,aab,402dha}'::text[])
(4 rows)

GIN 索引的更新成本很高，因此如果您使用这种方法，您将在insert/上付出巨大的性能代价。update普通数组也是如此；使用regexp_split_to_table动态创建它们只会让它变得更糟。请参阅GIN 提示和GIN 索引介绍。

例如，INSERT INTO test(gah) SELECT 'aaaaabbbbb'||(x::text) FROM generate_series(1,1000000) x;在 GIN 索引就位的情况下，将一百万行插入到我的测试表中需要 22 秒，而删除它后需要 1.6 秒。不过，由于值的一致性，这可能是一个特别糟糕的情况。

regex - 我可以使用正则表达式来匹配一组值吗？

1 回答 1

Related

Reference