我需要一些帮助来从包含英语和泰卢固语的混合语言中获取单词,这是我到目前为止的代码
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import re
sentence="hello world యూనియన్ యూనియన్"
sentence=sentence.decode('utf-8')
for m in re.finditer(ur'(\w|\’\w|\'\w)+', sentence, re.UNICODE):
start, end = m.span()
word = m.group().encode('utf-8')
print start, end, word
我期待的结果是
0 5 hello
6 11 world
11 17 యూనియన్
17 23 యూనియన్
但我得到的结果是
0 5 hello
6 11 world
12 13 య
14 15 న
16 18 యన
20 21 య
22 23 న
24 26 యన
代码拆分语言的每个字符并给出独立的开始和结束长度。有什么方法可以让我得到上述格式的结果作为单词而不是字符