我正在使用NLTK word_tokenizer
将句子拆分为单词。
我想标记这句话:
في_بيتنا كل شي لما تحتاجه يضيع ...ادور على شاحن فجأة يختفي ..لدرجة اني اسوي نفسي ادور شيء
我正在写的代码是:
import re
import nltk
lex = u" في_بيتنا كل شي لما تحتاجه يضيع ...ادور على شاحن فجأة يختفي ..لدرجة اني اسوي نفسي ادور شيء"
wordsArray = nltk.word_tokenize(lex)
print " ".join(wordsArray)
问题是该word_tokenize
函数没有按单词拆分。相反,它按字母拆分,因此输出为:
"ف ي _ ب ي ت ن ا ك ل ش ي ل م ا ت ح ت ا ج ه ي ض ي ع ... ا د و ر ع ل ى ش ا ح ن ف ج أ ة ي خ ت ف ي .. ل د ر ج ة ا ن ي ا س و ي ن ف س ي ا د و ر ش ي ء"
有任何想法吗 ?
到目前为止我所达到的:
通过尝试此处的文本,它似乎是由字母标记的。然而,其他的分词器也正确地对其进行了分词。这是否意味着word_tokenize
仅适用于英语?这适用于大多数 NLTK 功能吗?