我正在开发一个原型,我试图在 2 个音频文件之间查找和匹配模式。举个简单的例子,假设我们有两个 5 秒的音频文件,我的录音如下: 1. “我爱狗”。2.“狗太棒了!”
在这里,我想分析和识别某些特征,以便我可以得出两个音频文件之间的共同词是“狗”这个词。请注意,内容并不重要。否则我可以将它转换为文本并匹配它。我想分析常见的特征模式。我对 mfcc、色度图等音频功能有基本的了解,但是在这种情况下使用什么以及如何使用?
我正在开发一个原型,我试图在 2 个音频文件之间查找和匹配模式。举个简单的例子,假设我们有两个 5 秒的音频文件,我的录音如下: 1. “我爱狗”。2.“狗太棒了!”
在这里,我想分析和识别某些特征,以便我可以得出两个音频文件之间的共同词是“狗”这个词。请注意,内容并不重要。否则我可以将它转换为文本并匹配它。我想分析常见的特征模式。我对 mfcc、色度图等音频功能有基本的了解,但是在这种情况下使用什么以及如何使用?