我正在使用 collections.counter() 和 findall() 函数从 .txt 文件(包含 65000 个单词)创建一个单词表。它适用于英语。但是它忽略了其他语言中的特殊字符,如 â、á、ü、ö 等。此外,我希望将“t'appele”和“signifie-t-elle”等组合词添加为一个不同的词。我尝试了各种正则表达式组合但没有成功。有人知道如何使它包含特殊字符吗?下面是我的代码。
with open(text_to_load) as f:
words_from_text = collections.Counter(
word.lower()
for line in f
for word in re.findall(r'\b[^\W\d_]+\b', line, re.UNICODE))```