土耳其语字符 'ÇçĞğİıÖöŞşÜü' 在 utf-8 编码中未正确处理,尽管它们似乎都已定义。它们的字符码都是 65533(替换字符,可能用于错误显示),并根据所选字体显示问号或框。在某些情况下,0/null 作为字符码返回。在互联网上,有很多工具提供 utf-8 定义,但我不确定工具是否使用任何定义的(真实/国际)注册表或使用已知规则和计算动态创建定义。它们的字体定义明确,当我们手动输入代码点时显示它们没有问题。这证明它们是在 utf-8 中定义的。但另一方面,它们不在编码或转换中处理,例如 ajax 请求/响应。
所以基本问题是“我们如何定义一个字符的代码点”?该问题可以按如下方式进行调整,以防止误解。假设我们已经为“Ç”准备了这样的编码数据 -> 字符:Ç 字符名称:LATIN CAPITAL LETTER C WITH CEDILLA 十六进制代码点:00C7 十进制代码点:199 十六进制 UTF-8 字节:C387 ......我们在哪里/如何将这些信息保存为标准的 utf-8 字符?我们如何分发/公开它(准备好被其他人使用)?我们是否需要任何人/基金会(如 unicode/utf-8 联盟)的任何确认,如果它们已经注册但无法正常工作,我们如何检测/修复错误?我们可以进行自定义 utf8 配置吗?如果是怎么办?
注意:这里不需要代码片段,因为它不是误用问题。