有没有人看到任何示例如何设置简单的应用程序来训练 dnet,然后使用它来识别有限数量的语音命令而不绑定到特定语言?我相信 Kaldi API 非常强大,但缺乏文档。
问问题
469 次
1 回答
0
1)您采用现有的 DNN 模型或自己训练它。您可以使用 Kaldi 的 Tedlium 实验,它是免费运行的。模型是否适用于英语并不重要,它也适用于其他语言。
2) 你从两个训练关键词中提取 DNN 后验。nnet3-am-compute 工具可用于此目的。它采用 DNN 模型并为每一帧返回语音或状态后验。
3)您实现DTW 算法来比较 DNN 后验。这部分你必须自己做,它没有在 Kaldi 中实现。
描述算法的相关论文:
于 2017-02-16T16:15:00.570 回答