U+4E00..U+9FFF是整套的一部分,但不是全部
6 回答
您可能会通过CJK Unicode FAQ找到完整列表(其中确实包括“中文、日文和韩文”字符)
“东亚文字”文件确实提到:
含汉表意文字的块
Unicode 标准的五个主要块中发现了汉字,如表 12-2 所示
表 12-2。含汉表意文字的块
Block Range Comment
CJK Unified Ideographs 4E00-9FFF Common
CJK Unified Ideographs Extension A 3400-4DBF Rare
CJK Unified Ideographs Extension B 20000-2A6DF Rare, historic
CJK Unified Ideographs Extension C 2A700–2B73F Rare, historic
CJK Unified Ideographs Extension D 2B740–2B81F Uncommon, some in current use
CJK Unified Ideographs Extension E 2B820–2CEAF Rare, historic
CJK Compatibility Ideographs F900-FAFF Duplicates, unifiable variants, corporate characters
CJK Compatibility Ideographs Supplement 2F800-2FA1F Unifiable variants
注意:块范围会随着时间而变化:最新的是CJK Unified Ideographs。
另见维基百科:
Unicode 目前有 74605 个 CJK 字符。CJK 字符不仅包括中文使用的字符,还包括日文汉字、韩文汉字和越南文 Chu Nom。一些 CJK 字符不是汉字。
1) 来自CJK 统一表意文字块的 20941 个字符。
代码点 U+4E00 到 U+9FCC。
2) 来自CJKUI Ext A 块的 6582 个字符。
代码点U+3400 到 U+4DB5。Unicode 3.0 (1999)。
3) 来自CJKUI Ext B 块的 42711 个字符。
代码点 U+20000 到 U+2A6D6。Unicode 3.1 (2001)。
- U+20000 - U+215FF
- U+21600 - U+230FF
- U+23100 - U+245FF
- U+24600 - U+260FF
- U+26100 - U+275FF
- U+27600 - U+290FF
- U+29100 - U+2A6DF
3) 来自CJKUI Ext C 块的 4149 个字符。
代码点U+2A700 到 U+2B734。Unicode 5.2 (2009)。
4) 来自CJKUI Ext D 块的 222 个字符。
代码点U+2B740 到 U+2B81D。Unicode 6.0 (2010)。
5) CJKUI Ext E 块。
如果以上内容还不够意大利面,请查看已知问题。玩得开心 =)
汉字(扩展名除外)的确切范围是[\u2E80-\u2FD5\u3190-\u319f\u3400-\u4DBF\u4E00-\u9FCC\uF900-\uFAAD].
CJK 部首补充是一个 Unicode 块,其中包含康熙部首的替代形式,通常是位置形式。它们用于字典索引和其他由激进笔划组织的 CJK 表意文字集合中的标题。
Kanbun 是一个 Unicode 块,其中包含在日本文言文文本中使用的注释字符,以指示阅读顺序。
CJK 统一表意文字扩展-A 是一个 Unicode 块,其中包含罕见的汉族表意文字。
CJK 统一表意文字是一个 Unicode 块,其中包含现代汉语和日语中使用的最常见的 CJK 表意文字。
CJK Compatibility Ideographs 是一个 Unicode 块,除了它们的 CJK 统一表意文字分配之外,还包含在其他已建立的字符编码中的多个位置编码的汉字符,以保持 Unicode 和这些编码之间的往返兼容性。
有关详细信息,请参阅此处,其他答案中提供了扩展名。
其他答案给出的 Unicode 代码块肯定涵盖了大多数中文 Unicode 字符,但也请查看其中一些其他代码块。
CJK_UNIFIED_IDEOGRAPHS
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_B
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_C
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_D
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_E
CJK_COMPATIBILITY
CJK_COMPATIBILITY_FORMS
CJK_COMPATIBILITY_IDEOGRAPHS
CJK_COMPATIBILITY_IDEOGRAPHS_SUPPLEMENT
CJK_RADICALS_SUPPLEMENT
CJK_STROKES
CJK_SYMBOLS_AND_PUNCTUATION
ENCLOSED_CJK_LETTERS_AND_MONTHS
ENCLOSED_IDEOGRAPHIC_SUPPLEMENT
KANGXI_RADICALS
IDEOGRAPHIC_DESCRIPTION_CHARACTERS
总而言之,听起来像是这些:
var blocks = [
[0x3400, 0x4DB5],
[0x4E00, 0x62FF],
[0x6300, 0x77FF],
[0x7800, 0x8CFF],
[0x8D00, 0x9FCC],
[0x2e80, 0x2fd5],
[0x3190, 0x319f],
[0x3400, 0x4DBF],
[0x4E00, 0x9FCC],
[0xF900, 0xFAAD],
[0x20000, 0x215FF],
[0x21600, 0x230FF],
[0x23100, 0x245FF],
[0x24600, 0x260FF],
[0x26100, 0x275FF],
[0x27600, 0x290FF],
[0x29100, 0x2A6DF],
[0x2A700, 0x2B734],
[0x2B740, 0x2B81D]
]