是的,您可以使用 CMU Sphinx 等语音识别软件来识别非语音。为此,您需要创建自己的声学和语言模型,并定义仅限于您的任务的词典。但是要训练相应的声学模型,您必须有足够的带有注释的感兴趣声音的训练数据。
简而言之,步骤顺序如下:
首先,准备培训资源:词典、字典等。该过程在此处描述:http: //cmusphinx.sourceforge.net/wiki/tutorialam。但是在您的情况下,您需要重新定义音素集和词典。也就是说,您应该将填充符建模为真实的单词(所以,没有++
),并且您不需要定义完整的音素集。有很多可能性,但最简单的一种可能是为所有语音音素建立一个模型。因此,您的词典将如下所示:
CLAP CLAP
BARK BARK
WHISTLE WHISTLE
FART FART
SPEECH SPEECH
其次,准备带有标签的训练数据:类似于 VoxForge,但文本注释必须仅包含您的词典中的标签。当然,非语音也必须正确标记。这里的好问题是从哪里获得足够多的此类数据。但我想这应该是可能的。
有了它,你就可以训练你的模型了。与语音识别相比,该任务更简单,例如,您不需要使用三音素,只需使用单音素即可。
假设任何声音/语音的先验概率相等,最简单的语言模型可以是类似循环的语法(http://cmusphinx.sourceforge.net/wiki/tutoriallm):
#JSGF V1.0;
/**
* JSGF Grammar for Hello World example
*/
grammar foo;
public <foo> = (CLAP | BARK | WHISTLE | FART | SPEECH)+ ;
这是将 ASR 工具包用于您的任务的非常基本的方法。可以通过微调 HMM 配置、使用统计语言模型和使用细粒度的音素建模(例如区分元音和辅音而不是单一的 SPEECH 模型。这取决于你的训练数据的性质)来进一步改进。
在语音识别框架之外,您可以构建一个简单的静态分类器,逐帧分析输入数据。在频谱图上运行的卷积神经网络在这项任务中表现得非常好。