我的女儿和我正在建造一匹机器人马。一个设计目标是使用语音识别来识别给马的命令并做出相应的反应。由于大多数命令几乎不是英语单词,因此我需要一些可以创建自定义单词的东西。我在 Kaldi-ASR 的日常工作中有一些经验,所以我想我会先研究它的功能。
识别语法将包含几个命令:Walk(走路或两个接吻的声音)、Trot(TT-ro-TT)、Gallop(Gee-yup)、Stop(哇)、“Go faster”命令(来吧或咯咯的舌头)加上马的名字和一些像“好孩子”这样的短语和一些听起来像咯咯的声音。
它将运行的硬件将受到限制,可能是 Raspberry Pi 4。(但如果这种类型的识别有显着的速度优势,我可以谈论更强大的东西。)
第一个挑战是,即使是同一个人发出的马指令也会有很多不同的重点、节奏和口音。EG Giddy-up 的发音可能像 Giddy Up、GEE up、EE-YUP、gee-UP 等
。第二个是一些马的命令不是单词:咯咯的舌头,接吻的声音是两个主要的。
第一个问题:Kaldi 会适合这个吗?(我使用它,但对它背后的理论知之甚少。)它是否能很好地处理大量的发音?它可以用于诸如咯咯的舌头或发出接吻的声音之类的非单词话语吗?如果没有这种类型的识别,是否有更好的识别引擎?
第二个问题:我如何处理各种发音?考虑它们不同的单词并分别训练它们,或者如果我给它大量的样本数据来训练,Kaldi 是否能够处理它?IOW,将发音分成不同的单词会得到更好的识别,还是使用在训练音频中有很多变化的单个单词训练?
关于如何最好地训练这些类型的声音的任何其他提示也很受欢迎。