有标准的 AZ、az 字符,也有连字符、破折号、引号等。
此外,还有所有的国际字符,如变音符号等。
那么,对于一个基于英语的系统,完整的集合是什么?其他语言的集合呢?UTF8、UTF16 等呢?
额外问题:需要多少个名称字段,它们的最大长度是多少?
编辑:人名中肯定有两种不同类型的字符,一种是作为上下文的一部分,另一种是出于结构原因。我不想限制或干扰上下文字符,但我确实需要处理结构字符。
例如,我输入了一个用 em 破折号分隔的名称,但很难将其与减号字符区分开来。为了使系统更易于搜索,我想采用所有五种不同类型的破折号,并将它们映射到一个唯一字符(减号)上,这样搜索者就不需要具体知道最初输入的是哪个符号。
破折号存在问题,可能还有引号,还有多少其他符号?