speech-recognition - 使用 Kaldi-ASR 识别语音命令？

Question

我的女儿和我正在建造一匹机器人马。一个设计目标是使用语音识别来识别给马的命令并做出相应的反应。由于大多数命令几乎不是英语单词，因此我需要一些可以创建自定义单词的东西。我在 Kaldi-ASR 的日常工作中有一些经验，所以我想我会先研究它的功能。

识别语法将包含几个命令：Walk（走路或两个接吻的声音）、Trot（TT-ro-TT）、Gallop（Gee-yup）、Stop（哇）、“Go faster”命令（来吧或咯咯的舌头）加上马的名字和一些像“好孩子”这样的短语和一些听起来像咯咯的声音。

它将运行的硬件将受到限制，可能是 Raspberry Pi 4。（但如果这种类型的识别有显着的速度优势，我可以谈论更强大的东西。）

第一个挑战是，即使是同一个人发出的马指令也会有很多不同的重点、节奏和口音。EG Giddy-up 的发音可能像 Giddy Up、GEE up、EE-YUP、gee-UP 等
。第二个是一些马的命令不是单词：咯咯的舌头，接吻的声音是两个主要的。

第一个问题：Kaldi 会适合这个吗？（我使用它，但对它背后的理论知之甚少。）它是否能很好地处理大量的发音？它可以用于诸如咯咯的舌头或发出接吻的声音之类的非单词话语吗？如果没有这种类型的识别，是否有更好的识别引擎？

第二个问题：我如何处理各种发音？考虑它们不同的单词并分别训练它们，或者如果我给它大量的样本数据来训练，Kaldi 是否能够处理它？IOW，将发音分成不同的单词会得到更好的识别，还是使用在训练音频中有很多变化的单个单词训练？

关于如何最好地训练这些类型的声音的任何其他提示也很受欢迎。

0 回答 0