2

我用下面的代码读取了一个文件,然后我想使用 re 库在文件中查找单词。该文件包含土耳其语字符。所以我使用 utf-8 解码文件。re 库不知道土耳其字符。下面的代码不起作用。

    text= unicodedata.normalize("NFKD",codecs.open(os.path.abspath("texts/kopru1.txt"),"rb").read().decode("utf-8"))
    text=text.replace("\r\n"," ").lower()
    aa= re.findall(ur"[a-zçşıöü]+", text,re.UNICODE)  

虽然“ ayşe ”是一个词,但这个词似乎是“ ays ”和“ e ”。

4

1 回答 1

5

使用转义序列\w,意思是“任何类型的字母”。刚刚从维基百科得到一个例句:

>>> text = u'Türkî-i çin (güzel güneş) terkiplerinde de gördüğümüz'
>>> re.findall(r'\w+', text, re.UNICODE)
['Türkî', 'i', 'çin', 'güzel', 'güneş', 'terkiplerinde', 'de', 'gördüğümüz']
于 2013-06-11T17:03:48.323 回答