任何人都可以为以下内容提供链接、建议或其他形式的帮助?
目标 - 使用 python 对 10 秒的音频样本进行分类,以便之后我可以对着麦克风说话,让 python 从 db 中挑选并播放最接近匹配的片段(一起淡出)。
我的目标不是获得最接近的匹配,我不在乎音频样本的来源是什么。所以结果可能除了在噪音中说话(有趣)之外没有任何用处。
我希望 python 应用程序能够找到 FFT 的特定匹配,例如在 db 中的 10 秒样本内。我猜麦克风的实时采样会有 100 毫秒的缓冲采样。
有任何想法吗?快速傅里叶变换?什么分贝?其他?