我有一些这样的文字:
এর জন্য বুদ্ধির (原因) প্রয়োজন নেই, প্রয়োজন নিজের
语言是孟加拉语(当然除了一个英语单词)。
我想获得文本中的孟加拉语单词列表(即单词标记化问题)。孟加拉语的 Unicode 范围是 0980 到 09FF。还有一个\p{Bengali} 脚本(不知道怎么用)。这是我所拥有的:
import re
Pattern = re.compile(r'\[\u0980-\u09FF]+')
Words = split(Pattern, Text)
这是行不通的。我怎样才能让它工作?如果可能的话,我也更喜欢使用 \p{Bengali},而不是明确的 Unicode 范围。