unicode - Pocketsphinx 的僧伽罗语模型问题

Question

我正在尝试为僧伽罗语创建语音识别系统。我尝试创建一个语言模型，但遵循Build NEW Acoustic model, Dictionary , Language model for uncommon language speech recognition中的答案。我在 windows 上同时使用了在线 lmtool 和 cmuclmtk-0.7-win32。我的输入文件如下，

එක  eka
දෙක de ka
තුන thu na
හතර ha tha ra
පහ  pa ha
හය  ha iya
හත  ha tha
අට  ah ta
නවය na wa ya

提交到 lmtool 和 cmuclmtk 后，我得到如下输出，

AHTA    AE T AH
DEKA    D AH K AA
EKA EH K AH
HAIYA   HH EY AY AH
HATHA   HH AE TH AH
HATHARA HH AE TH AH R AH
NAWAYA  N AO EY AH
PAHA    P AE HH AH
THUNA   TH UW N AH
à¶…à¶§  
à¶à·”à¶±   
à¶¯à·™à¶š   
à¶±à·€à¶º   
à¶´à·„  
à·„à¶  
à·„à¶à¶»   
à·„à¶º  
ï»¿à¶‘à¶š

.dic 和 .lm 文件都包含上述字符。我觉得这些都是一些垃圾字符。我做错了什么得到这个？

score 1 · Accepted Answer

你做错了一切。

对于语料库构建，您需要一个文本文件，而不是字典文件。您单独创建字典。

您不应该将在线 lmtool 用于您的语言。它仅适用于英语。

要从文本中训练语言模型，您应该使用 srilm。

unicode - Pocketsphinx 的僧伽罗语模型问题

1 回答 1

Related

Reference