我用下面的代码读取了一个文件,然后我想使用 re 库在文件中查找单词。该文件包含土耳其语字符。所以我使用 utf-8 解码文件。re 库不知道土耳其字符。下面的代码不起作用。
text= unicodedata.normalize("NFKD",codecs.open(os.path.abspath("texts/kopru1.txt"),"rb").read().decode("utf-8"))
text=text.replace("\r\n"," ").lower()
aa= re.findall(ur"[a-zçşıöü]+", text,re.UNICODE)
虽然“ ayşe ”是一个词,但这个词似乎是“ ays ”和“ e ”。