我有一个英语工作模式,但我的母语不起作用,这让我很头疼。首先我提出了很多关于编码的问题,我知道我低估了它,这是一个大问题。我花了一些时间阅读它,但问题仍然存在。所以现在我面临一个正则表达式 utf 问题。所以模式是:
exactMatch = re.compile(r"([^\.]*\bтурција\b[^\.]*)\.", re.UNICODE)
print exactMatch.pattern
result= exactMatch.findall("турција е на врвот од индустријата. турција е на врвот од индустријата.")
它适用于英语。它的功能是给我一个段落中的所有句子。那么有什么建议吗?
我也尝试过编码和解码,但注意到除了编码错误之外会发生。