我正在尝试使用 HTK 开发一个基本的连接数字识别器。目前,识别器只需要识别 0-10 的数字,并且依赖于说话者(这现在不是问题)。以下是我如何进行识别:
- 获取用户录制的 wavfile 并创建 MFCC。
使用 wordnet 和字典作为输入在 mfcc 文件上运行 HVite。
关于 hmm 模型的训练注意事项:
训练初始 HMM 模型的基本单元是从口语数字字符串中挑选出来的。我最终得到了每个数字的大约 20 个单位(大约),这些单位用于制作初始模型。通过连接基本单元(要连接的基本单元是随机选择的)来合成嵌入式训练模型。以这种方式生成的句子总数约为 20000 个。另外 109 个句子取自测试阶段实际说出的单词。
我面临的问题如下:
1. 在长度超过 4 的连接数字字符串中,我在输出端将数字插入到输入字符串中。
例如)输入:99102,输出:989818082
请注意,输入中的所有数字都被正确识别,只是在输出中引入了无关数字。查看 mlf 文件显示与这些词关联的似然值也相似。知道为什么会发生这种情况吗?
我已经通过网络寻找解决方案,但没有遇到任何问题。任何帮助都是最受欢迎的。