1

如果给定一组用代码页“xzc”编码的文本“abcdefg-foo”,python 中是否可以用代码页解码这些字符?

更具体地说,我们有一个已知的 AFP 代码页 T1V10500。我们提取的字体是从引用此代码页的 AFP 中提取的。我们可以提取引用并构建代码页的路径。

codepage="/path/to/codepage/T1V10500"
ascii_encoded_extracted_afp_text=extract_afp_text().decode(codepage).encode("ascii")

这是对我希望实现的目标的过度简化,但我希望了解该概念是否专门在 python 中可用。

4

1 回答 1

0

你应该尝试使用ICU

似乎有一个 python 绑定(http://pypi.python.org/pypi/PyICU/0.8.1)

如果您的 AFP 文件中使用的代码页是通用的(而不是自定义的),您可以轻松地使用 ICU 从代码页指定的编码(T1v10500 应该是 CP500 即 IBM EBCDIC International)到 ascii 或您需要的任何编码构建转换器。ICU 是一个很棒的库,用于大多数 IBM AFP 文件工具。

如果你觉得 ICU 太麻烦,不需要处理其他代码页,你可以建立一个简单的从 CP500 到 ASCII 的转换表

于 2012-09-07T09:28:19.050 回答