我将解决这个问题的 MS SQL Server 部分,但“正确”的答案实际上取决于支持的语言和应用程序。
在 SQL Server 中创建表时,每个文本字段都具有隐式或显式指定的排序规则。这会影响排序顺序和比较行为。对于大多数英语(美国)语言环境,默认值为 Latin1_General_CI_AS,或拉丁语 1、不区分大小写、区分重音。这意味着,例如,a=A,但 a!=Ä 和 a!=ä。您还可以使用不区分重音 (Latin1_General_CI_AI),它将“A”的所有变音符号变体视为相同。
一些语言环境支持其他类别的比较;例如,法语对包含变音符号的单词的排序与德语略有不同。土耳其语认为无点 i 和带点 i 在语义上不同,因此如果您使用土耳其语、不区分大小写、区分重音的排序规则,即使不区分大小写的比较也不会匹配。
您可以更改每个数据库、每个表、每个字段的排序规则,甚至可以更改每个查询的排序规则。我的理解是索引根据指定的排序顺序进行规范化,这意味着索引基本上保持原始字符串的扁平化版本。例如,对于不区分大小写的排序规则,Apple 和 apple 存储为 apple。查询在搜索之前使用相同的排序规则进行展平。
在日语中,还有另一类规范化,其中全角和半角字符,如 ア=ア,在某些情况下,两个半角字符被展平为一个语义等效的字符(バ=バ)。最后,对于某些语言,还有另外一个带有复合字符的蜡球,其中孤立的变音符号可以与其他字符组成(例如,ä 中的变音符号是一个字符,由简单形式 a 组成)。越南语、泰语和其他一些语言有此类别的变体。如果存在规范形式,Unicode 规范化允许将组合形式和分解形式视为等效形式。Unicode 规范化通常在进行任何比较之前应用。
总而言之,对于不区分大小写的比较,您执行的操作与比较 ASCII 范围字符串时所做的非常相似:将比较的左侧和右侧展平为“小写”(例如),然后将数组作为二进制进行比较大批。不同之处在于您需要 1)将字符串标准化为相同的 unicode 形式(kC 或 kD) 2)根据该语言环境的规则将字符串标准化为相同的大小写 3)根据重音敏感规则将重音标准化4) 根据二进制比较进行比较 4) 如果适用,例如在排序的情况下,使用附加的二级和三元排序规则进行比较,其中包括类似于某些语言中“Mc”在“M”之前排序的内容。
是的,Windows 存储所有这些规则的表。默认情况下,您不会在每次安装中都获得所有这些,除非您通过控制面板中的东亚语言支持和复杂脚本支持添加对它们的支持。