我正在尝试为僧伽罗语创建语音识别系统。我尝试创建一个语言模型,但遵循Build NEW Acoustic model, Dictionary , Language model for uncommon language speech recognition中的答案。我在 windows 上同时使用了在线 lmtool 和 cmuclmtk-0.7-win32。我的输入文件如下,
එක eka
දෙක de ka
තුන thu na
හතර ha tha ra
පහ pa ha
හය ha iya
හත ha tha
අට ah ta
නවය na wa ya
提交到 lmtool 和 cmuclmtk 后,我得到如下输出,
AHTA AE T AH
DEKA D AH K AA
EKA EH K AH
HAIYA HH EY AY AH
HATHA HH AE TH AH
HATHARA HH AE TH AH R AH
NAWAYA N AO EY AH
PAHA P AE HH AH
THUNA TH UW N AH
අට
à¶à·”න
දෙක
නවය
පහ
à·„à¶
à·„à¶à¶»
හය
එක
.dic 和 .lm 文件都包含上述字符。我觉得这些都是一些垃圾字符。我做错了什么得到这个?