没有所有 Unicode 字符及其口头描述的完整列表,甚至没有包含 Unicode 名称的列表。UnicodeData.txt 文件通常指的是大范围的字符,例如
4E00;<CJK Ideograph, First>;Lo;0;L;;;;;N;;;;;
9FCB;<CJK Ideograph, Last>;Lo;0;L;;;;;N;;;;;
和
AC00;<Hangul Syllable, First>;Lo;0;L;;;;;N;;;;;
D7A3;<Hangul Syllable, Last>;Lo;0;L;;;;;N;;;;;
可以用 Unicode 名称构建一个完整的列表,但目的是什么?Unicode 名称,例如 COMBINING PALATALIZED HOOK BELOW,是标识符,而不是描述。以英文文本为例,有些是直观的描述性的,有些是非常模糊的,有些是晦涩的,有些是完全错误的——由于稳定性原则,它们永远不会改变。该原则很大程度上是由于在程序中使用 Unicode 名称而需要的。不得更改它们,原因与不得更改 Unicode 数字的原因相同。
一些用于变音符号的 Unicode 名称也具有误导性,或者至少是不完整的。变音符号的形状不能仅从 Unicode 名称推断出来,形状甚至可能变化很大(例如,带 caron 的 t 是小写的 ť,变音符号看起来像 conna,而对应的大写字母 Ť 有.. . 嗯,一个类似卡隆的卡隆)。
在文本数据中使用 U+0319 和 U+0321 等字符意味着需要相对广泛的字体和相对先进的渲染软件,以很好地显示组合变音符号。此外,如果您打算在它们不打算用于的含义和上下文中使用它们(它们旨在用于与字母相关联以指示发音特征的注音符号),您可能需要不正确地实现它们的糟糕软件(考虑到预期用途和渲染)。例如,U+0319 应该出现在字母下方