python - python unicode 正则表达式

Question

我用下面的代码读取了一个文件，然后我想使用 re 库在文件中查找单词。该文件包含土耳其语字符。所以我使用 utf-8 解码文件。re 库不知道土耳其字符。下面的代码不起作用。

    text= unicodedata.normalize("NFKD",codecs.open(os.path.abspath("texts/kopru1.txt"),"rb").read().decode("utf-8"))
    text=text.replace("\r\n"," ").lower()
    aa= re.findall(ur"[a-zçşıöü]+", text,re.UNICODE)

虽然“ ayşe ”是一个词，但这个词似乎是“ ays ”和“ e ”。

score 5 · Accepted Answer

使用转义序列\w，意思是“任何类型的字母”。刚刚从维基百科得到一个例句：

>>> text = u'Türkî-i çin (güzel güneş) terkiplerinde de gördüğümüz'
>>> re.findall(r'\w+', text, re.UNICODE)
['Türkî', 'i', 'çin', 'güzel', 'güneş', 'terkiplerinde', 'de', 'gördüğümüz']

python - python unicode 正则表达式

1 回答 1

Related

Reference