1

我想用它们的基本字母替换任何拉丁/重音字符,并去掉所有无法转换的内容

例子:

'ë' to be replaced with 'e'
'ß' to be replaced with 's' , 'ss' if possible, if neither then strip it

我可以在 c# 代码中做到这一点,但我只是在 MSSQL 中没有很好的经验来解决这个问题而无需花费很多天

更新: varchar 列中的数据是从另一个应该有正常 UNICODE 文本的表上的触发器填充的。我想在函数中将文本转换为 ascii7 以用于进一步处理。

更新:我更喜欢只能在 SQL 中完成并避免自定义字符映射的解决方案。可以做到这一点,还是目前不可能?

4

1 回答 1

3

正如 Aaron 所说,我认为您不能完全在 SQL 中处理映射表,但是将字符映射到 ASCII-7 应该涉及一些相当简单的表,与 AI 排序规则一起使用。这里有两张表,一张用于映射列中的字符,一张用于字母表中的字母(如有必要,可以展开)。

通过使用 AI 排序规则,我得到了很多明确的映射定义。

-----------------------------------------------
-- One time mapping table setup
CREATE TABLE t4000(i INT PRIMARY KEY);
GO

INSERT INTO t4000 --Just a simple list of integers from 1 to 4000
SELECT ROW_NUMBER()OVER(ORDER BY a.x)
FROM (VALUES(1),(2),(3),(4),(5),(6),(7),(8),(9),(10)) a(x)
CROSS APPLY (VALUES(1),(2),(3),(4),(5),(6),(7),(8),(9),(10)) b(x)
CROSS APPLY (VALUES(1),(2),(3),(4),(5),(6),(7),(8),(9),(10)) c(x)
CROSS APPLY (VALUES(1),(2),(3),(4)) d(x)
GO

CREATE TABLE TargetChars(ch NVARCHAR(2) COLLATE Latin1_General_CS_AI PRIMARY KEY);
GO

INSERT TargetChars -- A-Z, a-z, ss
SELECT TOP(128) CHAR(i)
FROM t4000
WHERE i BETWEEN 65 AND 90
    OR i BETWEEN 97 AND 122
UNION ALL
SELECT 'ss'
-- plus any other special targets here
GO

-----------------------------------------------
-- function
CREATE FUNCTION dbo.TrToA7(@str NVARCHAR(4000))
RETURNS NVARCHAR(4000)
AS
BEGIN
    DECLARE @mapped NVARCHAR(4000) = '';
    SELECT TOP(LEN(@str))
    @mapped += ISNULL(tc.ch, SUBSTRING(@str, i, 1))
    FROM t4000
    LEFT JOIN TargetChars tc ON tc.ch = SUBSTRING(@str, i, 1)
    COLLATE Latin1_General_CS_AI;

    RETURN @mapped;
END
GO

使用示例:

SELECT dbo.TrToA7('It was not á tötal löß.');

结果:

--------------------------
It was not a total loss.
于 2012-06-23T16:40:37.173 回答