是否有必要将输入到 WordNet 的单词格式化为“التُّفَّاحْ”并且不能指望“التفاح”......是否有任何图书馆或服务采用未格式化的阿拉伯语单词返回所有可能的同义词列表。
问问题
325 次
1 回答
0
从التُّفَّاحْ
到التفاح
,您只是想删除变音符号,那么您需要一个词法规范化工具。尝试Tashaphyne,下载并安装,然后使用normalize
模块http://pythonhosted.org/Tashaphyne/Tashaphyne.normalize-module.html:
from Tashaphyne import *
text = 'التُّفَّاحْ'
print normalize_hamza(text)
print normalize_lamalef(text)
print normalize_searchtext(text)
于 2013-04-27T08:06:02.510 回答