ഇതുഒരുസ്ടലംമാണ്
itu oru stalam anu
这是一个 Unicode 字符串,表示这是一个地方
import nltk
nltk.wordpunct_tokenize('ഇതുഒരുസ്ഥാലമാണ് '.decode('utf8'))
不适合我。
nltk.word_tokenize('ഇതുഒരുസ്ഥാലമാണ് '.decode('utf8'))
也没有工作其他例子
"കണ്ടില്ല " = കണ്ടു +ഇല്ല,
"വലിയൊരു" = വലിയ + ഒരു
右拆分:
ഇത് ഒരു സ്ഥാലം ആണ്
输出:
[u'\u0d07\u0d24\u0d4d\u0d12\u0d30\u0d41\u0d38\u0d4d\u0d25\u0d32\u0d02\u0d06\u0d23\u0d4d']
我只需要拆分单词,如另一个示例所示。其他示例部分用于测试。问题不在于 Unicode。它与语言的形态有关。为此,您需要使用形态分析仪
看看这篇论文。
http://link.springer.com/chapter/10.1007%2F978-3-642-27872-3_38