3

给定一个文本文件(或 unicode 字符串),什么是检测不属于 ascii 编码的字符的好方法?我可以轻松地迭代将每个字符传递给ord(),但我想知道是否有更有效、更优雅或更惯用的方式来做到这一点。

这里的最终目标是编译数据中无法编码为 ascii 的字符列表。

万一这很重要,我的语料库的大小约为 500MB / 1200 个文本文件。在 Win7(64 位)上运行(预编译 vanilla)Python 3.3.1。

4

1 回答 1

9

这里的最终目标是编译数据中无法编码为 ascii 的字符列表。

我能想到的最有效的方法是re.sub()去掉任何有效的 ASCII 字符,这样你就可以得到一个包含所有非 ASCII 字符的字符串。

这只会去掉可打印的字符......

>>> import re
>>> print re.sub('[ -~]', '', u'£100 is worth more than €100')
£€

...或者如果您想包含不可打印的字符,请使用此...

>>> print re.sub('[\x00-\x7f]', '', u'£100 is worth more than €100')
£€

要消除欺骗,只需创建一个set()返回的字符串...

>>> print set(re.sub('[\x00-\x7f]', '', u'£€£€'))
set([u'\xa3', u'\u20ac'])
于 2013-05-31T21:42:41.007 回答