4

我有一个英语工作模式,但我的母语不起作用,这让我很头疼。首先我提出了很多关于编码的问题,我知道我低估了它,这是一个大问题。我花了一些时间阅读它,但问题仍然存在。所以现在我面临一个正则表达式 utf 问题。所以模式是:

exactMatch = re.compile(r"([^\.]*\bтурција\b[^\.]*)\.", re.UNICODE)
print exactMatch.pattern
result= exactMatch.findall("турција е на врвот од индустријата. турција е на врвот од индустријата.")

它适用于英语。它的功能是给我一个段落中的所有句子。那么有什么建议吗?

我也尝试过编码和解码,但注意到除了编码错误之外会发生。

4

1 回答 1

6

这将起作用:

exactMatch = re.compile(ur"([^\.]*\bтурција\b[^\.]*)\.", re.UNICODE)
print exactMatch.pattern
result= exactMatch.findall(u"турција е на врвот од индустријата. турција е на врвот од индустријата.")

如果您使用 unicode,则使用unicode。

于 2012-05-16T13:31:51.610 回答