python - re.sub() 后字符集错误

Question

我有这个代码

import chardet, re    

content = "Бланк свидетельства о допуске."
print content
print chardet.detect(content)
content = re.sub(u"(?i)[^-0-9a-zа-яё«»\&\;\/\<\>\.,\s\(\)\*:!\?]", "", content)
print content
print chardet.detect(content)

并输出

Бланк свидетельства о допуске.
{'confidence': 0.99, 'encoding': 'utf-8'}
� �  .
{'confidence': 0.5, 'encoding': 'windows-1252'}

我究竟做错了什么？之后如何获得 uft-8 字符串re.sub()？(Python 2.7, # coding: utf-8, UTF-8 文件, IDE Pycharm)。

谢谢。

score 7 · Accepted Answer

这就是（我认为）您想要实现的目标（为了清楚起见，我简化了正则表达式）：

#coding=utf8
import re    
content = u"Бланк XYZ свидетельства о ???допуске."
content = re.sub(u"(?iu)[^а-яё]", ".", content)
print content.encode('utf8') # Бланк.....свидетельства.о....допуске.

注意要点：

主题是 unicode
表达式是 unicode
该表达式使用 unicode 标志(?u)来进行大小写折叠。

此外，对于严肃的 unicode 工作，我推荐使用regex模块，它提供了出色且几乎完整的 unicode 支持。考虑：

# drop everything except Cyrillic and spaces 
import regex
content = regex.sub(u'[^\p{Cyrillic}\p{Zs}]', '', content)

虽然它记录了re.UNICODE只有改变\w和朋友，但在我的测试中它也影响案例折叠（re.IGNORECASE）：

Python 2.7.2+ (default, Oct  4 2011, 20:06:09) 
[GCC 4.6.1] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> import re
>>> src = u'Σσ Φφ Γγ'
>>> src
u'\u03a3\u03c3 \u03a6\u03c6 \u0393\u03b3'
>>> re.sub(ur'(?i)[α-ώ]', '-', src)
u'\u03a3- \u03a6- \u0393-'
>>> re.sub(ur'(?iu)[α-ώ]', '-', src)
u'-- -- --'

所以这要么是一个未记录的功能，要么是一个文档问题。

score 3 · Accepted Answer

您的输入是 UTF-8：

>>> content
'\xd0\x91\xd0\xbb\xd0\xb0\xd0\xbd\xd0\xba \xd1\x81\xd0\xb2\xd0\xb8\xd0\xb4\xd0\xb5\xd1\x82\xd0\xb5\xd0\xbb\xd1\x8c\xd1\x81\xd1\x82\xd0\xb2\xd0\xb0 \xd0\xbe \xd0\xb4\xd0\xbe\xd0\xbf\xd1\x83\xd1\x81\xd0\xba\xd0\xb5.'

但是您使用的是unicode正则表达式。该表达式直接与 UTF-8 输入的原始字节匹配。

在所有这些字节中，只有空格、句号和\xbb字节（作为»字符）不会被删除。其余的单个字节被删除，因为它们不属于您的否定字符类[^...]。

正确使用 Unicode（首先解码content为 unicode）有效：

>>> re.sub(u"(?i)[^-0-9a-zа-яё«»\&\;\/\<\>\.,\s\(\)\*:!\?]", "", content.decode('utf8'))
u'\u043b\u0430\u043d\u043a \u0441\u0432\u0438\u0434\u0435\u0442\u0435\u043b\u044c\u0441\u0442\u0432\u0430 \u043e \u0434\u043e\u043f\u0443\u0441\u043a\u0435.'
>>> print re.sub(u"(?i)[^-0-9a-zа-яё«»\&\;\/\<\>\.,\s\(\)\*:!\?]", "", content.decode('utf8'))
ланк свидетельства о допуске.

另一种方法是对正则表达式使用原始字节字符串，并匹配字节组合。确定哪些 UTF-8 字节和范围是有效的非常非常棘手。您需要完全了解UTF-8 如何将字符编码为多个字节，然后将您的否定字符类转换为一组允许通过相同字节组合的肯定匹配。这不适合胆小的人。

python - re.sub() 后字符集错误

2 回答 2

Related

Reference