1

我正在使用一个巨大的 DB2 表(数亿行),试图只选择与这个正则表达式匹配的行:

\b\d([- \/\\]?\d){12,15}(\D|$)

(即,单词边界,后跟 13 到 16 位数字,由空分隔或单个破折号、空格、斜杠或反斜杠分隔,后跟非数字或行尾。)

经过大量谷歌搜索,我设法创建了以下 SQL:

SELECT idx, comment FROM tblComment
WHERE xmlcast(xmlquery('fn:matches($c,"\b\d([- \/\\]?\d){12,15}(\D|$)")' PASSING comment AS "c") AS INTEGER)=1

据我所知,这非常有效......除非它找到带有非法字符的行:

在以字符串开头的 SQL/XML 表达式或函数参数中发现非法 XML 字符“#x3” [...]

数据包含许多非法 XML 字符,不能更改数据(我的只读访问权限有限,需要修复的行太多)。有没有办法去除或忽略非法字符,而无需先修改数据库?或者,我是否有不同的方式来编写具有相同效果的查询?

4

1 回答 1

1

您必须确定数据中出现的所有非法 XML 字符。一旦你知道它们,你就可以TRANSLATE()在模式匹配过程中使用该函数来消除它们。

假设您确定列中可能存在所有 ASCII 控制字符(0x00 到 0x0F 和 0x7F)COMMENT。您的查询可能如下所示:

SELECT idx, comment FROM tblComment
WHERE xmlcast(xmlquery(
  'fn:matches($c,"\b\d([- \/\\]?\d){12,15}(\D|$)")' 
  PASSING TRANSLATE(comment, ' ', x'01020304050607080B0C0F7F') AS "c") 
AS INTEGER)=1

手册中列出了所有合法的XML 字符。例如,0x09、0x0A 和 0x0D 是合法的,因此您不需要它们。TRANSLATE()

于 2016-03-03T15:22:05.587 回答