通常在写作中使用的 Unicode 字符的子集是什么——例如通常在报纸文章中发现的那些?
例如,在英语中,[a-zA-Z0-9] 范围内的字符,加上一些标点字符,对于大多数写作来说就足够了。
但我想支持使用超出 ASCII 范围的字符的语言,同时排除非打印或装饰字符。
目标是将用户对应用程序的输入限制为以书面语言合法使用的代码点。因为用户输入将被保存和显示,我不想让恶作剧者输入完全由诸如变音符号、Unicode 组合字符、Unicode 流控制字符等内容组成的文本。
遗憾的是,我并不精通 Unicode 中的每一种语言。是否有人编制了通常用于书写的所有 Unicode 字符子集的列表?