尝试使用 Moses 标记器标记文本时遇到问题。标记器在标记时将带重音的单词视为“é”或“è”作为空格和特殊字符。
脚步 :
- --> 我从 .docx 文件中读取
--> 使用 Moses 分词器对文本进行分词
from docx import Document tokenizer = MosesTokenizer(lang='FR') for i in file_docx.paragraphs: text = i.text tok = tokenizer.tokenize(text) print(text) print(tok)
结果: J'atteste que j'étais présent pour toute la procédure。
['J', '\\'', 'atteste', 'que', 'j', '\\'', 'e', '́', 'tais', 'pre', '́', 'sent', 'pour', 'toute', 'la', 'proce', '́', 'dure', '.']