1

尝试使用 Moses 标记器标记文本时遇到问题。标记器在标记时将带重音的单词视为“é”或“è”作为空格和特殊字符。

脚步 :

  1. --> 我从 .docx 文件中读取
  2. --> 使用 Moses 分词器对文本进行分词

    from docx import Document
    tokenizer = MosesTokenizer(lang='FR')
    
    for i in file_docx.paragraphs:
        text = i.text
        tok = tokenizer.tokenize(text)
        print(text) 
        print(tok)
    

结果: J'atteste que j'étais présent pour toute la procédure。

['J', '\\'', 'atteste', 'que', 'j', '\\'', 'e', '́', 'tais', 'pre', '́', 'sent', 'pour', 'toute', 'la', 'proce', '́', 'dure', '.']
4

0 回答 0