python - 忽略“for”语句中的异常

Question

我正在枚举这样一个大字符集的字符（以 GB2312 为例，但实际上很大）：

def get_gb2312_characters():
    higher_range = range(0xb0, 0xf7 + 1)
    lower_range = range(0xa1, 0xfe + 1)
    # see http://en.wikipedia.org/wiki/GB_2312#Encodings_of_GB2312

    for higher in higher_range:
        for lower in lower_range:
            encoding = (higher << 8) | lower
            yield encoding.to_bytes(2, byteorder='big').decode(encoding='gb2312')

for c in get_gb2312_characters():
    print(c)

这不起作用，因为代码页中存在一些“间隙”（或“垃圾”字节组合）。当程序试图从最后for一行的生成器中获取一个字符时，它会引发一个UnicodeDecodeError. 问题是我不能try...except用来包含for循环

try:
    for c in gb2312:
        print(c)
except UnicodeDecodeError:
        pass

因为如果有异常，循环将立即终止，所以不要在for循环中使用对

for c in gb2312:
    try:
        print(c)
    except UnicodeDecodeError:
        pass

因为内部没有引发异常。那么有什么办法可以解决这个问题吗？谢谢你。

score 5 · Accepted Answer

在你的函数中使用这个for循环试试这个：

for higher in higher_range:
    for lower in lower_range:
        encoding = (higher << 8) | lower
        try:
            yield encoding.to_bytes(2, byteorder='big').decode(encoding='gb2312')
        except UnicodeDecodeError:
            pass

失败的值将被忽略，生成器将只返回有效的值。

score 4 · Accepted Answer

把try except周围yield：

try:
    yield encoding.to_bytes(2, byteorder='big').decode(encoding='gb2312')
except UnicodeDecodeError:
    # handle exception here
    pass

python - 忽略“for”语句中的异常

2 回答 2

Related

Reference