我正在寻找一种将用户提交的录音与参考录音进行比较的方法,以便为某人提供语言学习的分数或百分比。
我意识到这是一种非常不科学的做事方式,而且不仅仅是一种噱头。
我的第一个想法是某种音频指纹识别或波形比较。
我应该在哪里寻找任何想法?
我正在寻找一种将用户提交的录音与参考录音进行比较的方法,以便为某人提供语言学习的分数或百分比。
我意识到这是一种非常不科学的做事方式,而且不仅仅是一种噱头。
我的第一个想法是某种音频指纹识别或波形比较。
我应该在哪里寻找任何想法?
除了 chomp 的出色答案之外,您可能需要查找的一个重要关键字是动态时间规整 (DTW)。这是维基百科的文章:http ://en.wikipedia.org/wiki/Dynamic_time_warping