我正在用客观的 C/C++ 为 iOS 构建一个语音识别应用程序,以纠正说话者的发音。我正在使用Mel-Frequency-Cepstrum Coefficients
并匹配两个声波,DTW.
如果我错了,请纠正我。现在我想知道句子中的哪个单词(两个声音文件)不匹配。例如我的两个声音文件说话
1. I live in New York.
2. I laav in New York.
我的算法应该通过某种指示指向第二个单词。
我使用了 Match-Box 开放库作为参考。这是它的链接。欢迎任何新算法或任何新库。
PS. I don't want to use text to speech synthesis and speaker recognition.
如果我在错误的地方发布了问题,请引导我找到正确的资源。
也欢迎任何小提示。