我已经为一个软件创建了自己的 CMUSphinx 阿拉伯语语言模型,该软件将聆听用户并使用我自己手动完成的字典应用命令,将“arpa”语言模型类型转换为“dmp”语言模型使用命令sphinx_lm_convert -i ar.lm -o ar.lm.dmp
,所以这里是我到目前为止的文件:
- .txt(命令文本文件)
- .wfreq(单词文件的频率)
- .idngram(ngram 文件)
- .dic(字典文件)
- .phone(音素文件)
- .lm(arpa 语言模型文件)
- .lm.dmp(Darpa Trigram 转储语言模型文件)
然后我记录了自己说每个单词的过程,每个单词都有自己的 .wav 文件,它们都在一个文件夹中,与 .dic、.txt、.lm 所在的文件夹分开。
我的问题是,当我在这里阅读http://cmusphinx.sourceforge.net/wiki/tutorial时,下一步是什么?
说适应现有的声学模型是建立语言模型之后的下一步,不是训练语言模型吗?
如果是培训,我有所有需要的文件,除了:
- .转录
- .fileids
这两个文件里面应该有什么?
谢谢