我正在做一个非常简单的语音识别项目。我目前有 2 套 wav 文件。每组都有 1 秒长的录音,记录同一个人在 2 个不同实例中所说的一组单词。例如,一组具有单词“一”、“二”和“三”,而另一组具有通过单独记录获得的完全相同的单词。许多单词押韵并使用不同的声音。
到目前为止,我已经尝试了几件事,但迄今为止我得到的最实用的是每个声音文件的频谱图(所有这些都使用相同的脚本以相同的方式构建)。
这一切都是通过 MATLAB 完成的,我可能只使用 MATLAB。
我将一组录音/频谱图称为“样本集”,这将是我将提供样本声音的集合。我将另一组记录/频谱图称为“测试集”,这将是我将尝试从中找到与提供的样本记录/频谱图最佳匹配的集合。
我想要的是,当提供样本声音/频谱图时,MATLAB 将返回测试集中的最佳匹配或匹配。理想情况下,它会返回相同的单词,但实际上我会很高兴只有一些样本返回相似的结果(例如押韵或具有相似元音/辅音的单词)。
我可以尝试哪些方法?同样,只要过程合理,如果失败也没关系。我知道我的声音样本量很小。我也明白最好比较频域中的声音,但我现在只有频谱图。