我一直在尝试将 unicode 正则表达式转换为 POSIX 正则表达式,以从列中删除、\p{So}
和类型的字符。\p{Cs}
\p{Cn}
\x1A
在 Informatica 中,我使用reg_replace (col_name,'[\p{So}\p{Cs}\p{Cn}\x1A]',' ')
函数来过滤掉这些字符并用单个空格替换它们。
但是,当迁移到 RedShift 时,无法使用相同的正则表达式,REGEXP_REPLACE()
因为它不支持 Unicode 块。
例如,这是字符串:-
'INT¡®L n°1 di KONGRESSE Ê Í EUROREGIONE。V.Ž?#'
从上面的字符串中,我需要保留拉丁/法语字母、字母数字和标点符号,并删除其他符号。