linux - 如何将口语音频与参考录音进行比较 - 语言学习

Question

我正在寻找一种将用户提交的录音与参考录音进行比较的方法，以便为某人提供语言学习的分数或百分比。

我意识到这是一种非常不科学的做事方式，而且不仅仅是一种噱头。

我的第一个想法是某种音频指纹识别或波形比较。

我应该在哪里寻找任何想法？

score 3 · Accepted Answer

尽管有大量关于该主题的研究，但这绝不是一个需要解决的微不足道的问题。目前，语音识别领域最成功的机器学习形式应用隐马尔可夫模型技术。

您可能还想查看 HMM 算法的现有实现。早期阶段的此类库之一是ghmm。

也许更好和更容易适用于您的问题的是HTK。

score 2 · Accepted Answer

除了 chomp 的出色答案之外，您可能需要查找的一个重要关键字是动态时间规整 (DTW)。这是维基百科的文章：http ://en.wikipedia.org/wiki/Dynamic_time_warping

2 回答 2