0

有没有人看到任何示例如何设置简单的应用程序来训练 dnet,然后使用它来识别有限数量的语音命令而不绑定到特定语言?我相信 Kaldi API 非常强大,但缺乏文档。

4

1 回答 1

0

1)您采用现有的 DNN 模型或自己训练它。您可以使用 Kaldi 的 Tedlium 实验,它是免费运行的。模型是否适用于英语并不重要,它也适用于其他语言。

2) 你从两个训练关键词中提取 DNN 后验。nnet3-am-compute 工具可用于此目的。它采用 DNN 模型并为每一帧返回语音或状态后验。

3)您实现DTW 算法来比较 DNN 后验。这部分你必须自己做,它没有在 Kaldi 中实现。

描述算法的相关论文:

研究基于神经网络的示例查询关键词发现方法,用于汉语个性化唤醒词检测

使用语音后验图模板逐例查询口语词检测

于 2017-02-16T16:15:00.570 回答