根据RFC 1738 统一资源定位符 (URL),仅支持 US-ASCII,所有其他字符都必须进行编码。
2.2. URL Character Encoding Issues
URLs are sequences of characters, i.e., letters, digits, and special
人物。URL 可以用多种方式表示:例如,纸上的墨水,或编码字符集中的八位位组序列。URL 的解释仅取决于所用字符的标识。
In most URL schemes, the sequences of characters in different parts of a
URL 用于表示 Internet 协议中使用的八位字节序列。例如,在 ftp 方案中,主机名、目录名和文件名就是这样的八位字节序列,由 URL 的一部分表示。在这些部分中,一个八位字节可以由一个字符表示,该字符在 US-ASCII [20] 编码字符集中将该八位字节作为其代码。
In addition, octets may be encoded by a character triplet consisting of
字符“%”后跟两个十六进制数字(来自“0123456789ABCDEF”),形成八位字节的十六进制值。(字符“abcdef”也可用于十六进制编码。)
Octets must be encoded if they have no corresponding graphic
US-ASCII 编码字符集中的字符,如果相应字符的使用不安全,或者如果相应字符保留用于特定 URL 方案中的某些其他解释。
No corresponding graphic US-ASCII:
URLs are written only with the graphic printable characters of the
US-ASCII 编码字符集。US-ASCII不使用八位字节80-FF十六进制,八位字节00-1F和7F十六进制表示控制字符;这些必须被编码。