我正在使用 WordPunct Tokenizer 来标记这句话:
في_بيتنا كل شي لما تحتاجه يضيع ...ادور على شاحن فجأة يختفي ..لدرجة فسي ادور شيء
我的代码是:
import re
import nltk
sentence= " في_بيتنا كل شي لما تحتاجه يضيع ...ادور على شاحن فجأة يختفي ..لدرجة اني اسوي نفسي ادور شيء"
wordsArray = nltk.tokenize.wordpunct_tokenize(sentence)
print " ".join(wordsArray)
我注意到打印输出与输入语句相同,那么为什么要使用分词器呢?此外,使用令牌文件或普通文本文件创建机器翻译系统 (MOSES) 会有什么不同吗?