您将如何将口语单词与音频文件进行比较并确定它们是否匹配?例如,如果我对我的 iPhone 应用程序说“apple”,我希望它录制音频并将其与预先录制的某人说“apple”的音频文件进行比较。它应该能够确定两个口语单词匹配。
我可以使用哪种算法或库来执行这种基于语音的音频文件匹配?
您将如何将口语单词与音频文件进行比较并确定它们是否匹配?例如,如果我对我的 iPhone 应用程序说“apple”,我希望它录制音频并将其与预先录制的某人说“apple”的音频文件进行比较。它应该能够确定两个口语单词匹配。
我可以使用哪种算法或库来执行这种基于语音的音频文件匹配?
您应该查找声学指纹,请参阅下面的维基百科链接。Shazam 基本上是为音乐而做的。
我知道这个问题很老,但我今天发现了这个库:
您可以使用神经网络库并教它识别不同的语音模式。这将需要一些了解神经网络一般理论背后的知识,以及如何使用它们来创建以特定方式运行的系统。如果您对该主题一无所知,则可以仅从基础开始,然后使用库而不是自己实现某些东西。希望有帮助。
Sphinx 进行语音识别,pocketSphinx 已被 Brian King 移植到 iPhone 上
检查https://github.com/KingOfBrian/VocalKit
他提供了出色的细节,并让您自己轻松实施。我已经运行了他的示例并修改了我自己的版本。