我正在寻找一种算法来确定实时音频输入是否与 144 个给定(并且非常不同)音素对中的一个匹配。
最好是完成这项工作的最低级别。
我正在为 iPhone / iPad 开发激进/实验性音乐培训软件。
我的音乐系统包括 12 个辅音音素和 12 个元音音素,在这里演示。这就产生了 144 个可能的音素对。学生必须根据视觉刺激唱出正确的音素对“laa duu bee”等。
我对此进行了大量研究,看起来我最好的选择可能是使用 iOS Sphinx 包装器之一(iPhone App › 添加语音识别? 是我找到的最佳信息来源)。但是,我看不出我将如何调整这样的包,任何有使用这些技术经验的人都可以给出所需步骤的基本概要吗?
用户是否需要培训?与包含数千个单词的完整语言模型以及更大、更微妙的音素基础相比,我不会想到,因为这是一项如此基本的任务。但是,让用户训练 12 个音素对是可以接受的(不理想):{ consonant1+vowel1, consonant2+vowel2, ..., consonant12+vowel12 }。完整的 144 太累赘了。
有没有更简单的方法?我觉得使用功能齐全的连续语音识别器正在使用大锤来破解坚果。使用可以解决问题的最少技术会更加优雅。
所以我真的在寻找任何识别音素的开源软件。
PS我需要一个几乎可以实时运行的解决方案。所以即使他们在唱这个音符,它首先会闪烁以表明它拾取了所唱的音素对,然后它会发光以说明他们是否在唱正确的音高