我们在其中一个模块中使用竖线|
( |
) 字符作为字段分隔符。所以用户不应该在标题中使用这个字符。
如果他们确实使用它,我想用类似的字符替换它。
有 Unicode 替代品吗?我发现的唯一一个看起来与之相似的字符是竖线¦
(¦
)。
我不明白你真正需要什么。您是否需要将分隔符序列更改为保证在数据集中不存在的东西?
如果是这样,那么这就是 Unicode 的 66 个“非字符”代码点专门设计的用途。您可以将它们用作内部哨兵,知道它们不会出现在有效数据中。
如果您只是在寻找视觉上相似的东西,那将是非常不同的。我不建议这样做,因为有很多易混淆的东西。这里只是其中的几个:
U+0007C | GC=Sm SC=Common VERTICAL LINE
U+000A6 ¦ GC=So SC=Common BROKEN BAR
U+002C8 ˈ GC=Lm SC=Common MODIFIER LETTER VERTICAL LINE
U+002CC ˌ GC=Lm SC=Common MODIFIER LETTER LOW VERTICAL LINE
U+02016 ‖ GC=Po SC=Common DOUBLE VERTICAL LINE
U+023D0 ⏐ GC=So SC=Common VERTICAL LINE EXTENSION
U+02758 ❘ GC=So SC=Common LIGHT VERTICAL BAR
U+02759 ❙ GC=So SC=Common MEDIUM VERTICAL BAR
U+0275A ❚ GC=So SC=Common HEAVY VERTICAL BAR
U+02AF4 ⫴ GC=Sm SC=Common TRIPLE VERTICAL BAR BINARY RELATION
U+02AF5 ⫵ GC=Sm SC=Common TRIPLE VERTICAL BAR WITH HORIZONTAL STROKE
U+02AFC ⫼ GC=Sm SC=Common LARGE TRIPLE VERTICAL BAR OPERATOR
U+02AFE ⫾ GC=Sm SC=Common WHITE VERTICAL BAR
U+02AFF ⫿ GC=Sm SC=Common N-ARY WHITE VERTICAL BAR
U+0FF5C | GC=Sm SC=Common FULLWIDTH VERTICAL LINE
U+0FFE4 ¦ GC=So SC=Common FULLWIDTH BROKEN BAR
Unicode 中有一个“浅色竖线” :❘,代码点 U+2758
http://www.fileformat.info/info/unicode/char/007c/index.htm
也可以看看: