1

Wikipedia 在Latin 1 Supplement for Unicode下列出了 x80—x9F “C1”范围。此范围也在ISO-8859-1代码页中保留。

我正在查看一个字符串文件,所有这些字符串都在 7 位 ASCII 范围内,除了一些\x96看起来像破折号的实例,例如街道地址的中间。

我不知道 C1 范围内的其他字符是否最终会出现在数据中,所以我想知道是否有正确的方法来读取文件。是否有任何 8 位编码将 x80 到 x9F 用于字符数据而不是终端控制字符?

4

2 回答 2

2

有大量(可能是无限数量)的 8 位编码将图形字符分配给 0x80 到 0x9F 范围内的部分或全部字节。微软定义的几种编码在字节位置 0x96 处有 U+2013 EN DASH “-”,并且可以想象这个字符可能出现在街道地址中,尤其是在数字之间。

另一方面,例如,MacRoman 在位置 0x96 处有字母“ñ”,例如,它很可能出现在西班牙语的街道名称中。

为了对情况进行合理分析,您应该检查整个数据,可能使用过滤器来查找 Ascii 范围 0x00 到 0x7F 之外的所有字节,查看字符出现的上下文,并尝试查找有关数据的来源。

于 2013-08-23T19:39:17.577 回答
0

这是一个破折号。我想与连字符(0x2D)略有不同。

http://www.ascii-code.com/

于 2013-08-23T19:14:23.390 回答