4

我们在其中一个模块中使用竖线|( |) 字符作为字段分隔符。所以用户不应该在标题中使用这个字符。

如果他们确实使用它,我想用类似的字符替换它。

有 Unicode 替代品吗?我发现的唯一一个看起来与之相似的字符是竖线¦¦)。

4

4 回答 4

31

我不明白你真正需要什么。您是否需要将分隔符序列更改为保证在数据集中不存在的东西?

如果是这样,那么这就是 Unicode 的 66 个“非字符”代码点专门设计的用途。您可以将它们用作内部哨兵,知道它们不会出现在有效数据中。

如果您只是在寻找视觉上相似的东西,那将是非常不同的。我不建议这样做,因为有很多易混淆的东西。这里只是其中的几个:

U+0007C ‭ |  GC=Sm SC=Common       VERTICAL LINE
U+000A6 ‭ ¦  GC=So SC=Common       BROKEN BAR
U+002C8 ‭ ˈ  GC=Lm SC=Common       MODIFIER LETTER VERTICAL LINE
U+002CC ‭ ˌ  GC=Lm SC=Common       MODIFIER LETTER LOW VERTICAL LINE
U+02016 ‭ ‖  GC=Po SC=Common       DOUBLE VERTICAL LINE
U+023D0 ‭ ⏐  GC=So SC=Common       VERTICAL LINE EXTENSION
U+02758 ‭ ❘  GC=So SC=Common       LIGHT VERTICAL BAR
U+02759 ‭ ❙  GC=So SC=Common       MEDIUM VERTICAL BAR
U+0275A ‭ ❚  GC=So SC=Common       HEAVY VERTICAL BAR
U+02AF4 ‭ ⫴  GC=Sm SC=Common       TRIPLE VERTICAL BAR BINARY RELATION
U+02AF5 ‭ ⫵  GC=Sm SC=Common       TRIPLE VERTICAL BAR WITH HORIZONTAL STROKE
U+02AFC ‭ ⫼  GC=Sm SC=Common       LARGE TRIPLE VERTICAL BAR OPERATOR
U+02AFE ‭ ⫾  GC=Sm SC=Common       WHITE VERTICAL BAR
U+02AFF ‭ ⫿  GC=Sm SC=Common       N-ARY WHITE VERTICAL BAR
U+0FF5C ‭ | GC=Sm SC=Common       FULLWIDTH VERTICAL LINE
U+0FFE4 ‭ ¦ GC=So SC=Common       FULLWIDTH BROKEN BAR
于 2012-05-13T15:19:13.927 回答
5

Unicode 中有一个“浅色竖线” :❘,代码点 U+2758

于 2012-05-13T14:49:27.637 回答
2

http://www.fileformat.info/info/unicode/char/007c/index.htm

也可以看看:

  • 拉丁字母牙科点击 U+01C0
  • 希伯来语标点符号 paseq U+05C0
  • 划分 U+2223
  • 浅色竖条 U+2758
于 2017-02-09T13:11:31.267 回答
0
于 2019-07-03T17:27:00.560 回答