我对音频处理非常陌生。我有一个参考音频文件和几个其他录音(不同说话者说的同一句话 - 方言和持续时间不同),我想将所有音频文件与一个扭曲最少的音频参考文件对齐。我尝试使用 MFCC 和 Chroma 功能(python/librosa),但我不知道下一步该做什么。我正在阅读有关 DTW(动态时间扭曲)的对齐方式,这行得通吗?是否有已经这样做的示例/开源项目或音频工具?这似乎是一个已解决的问题,但我找不到它。请帮忙。
我正在阅读这个 - https://librosa.github.io/librosa_gallery/auto_examples/plot_music_sync.html但是如何在时域中保存对齐的音频?
这似乎相关 -使用 python 进行动态时间扭曲(最终映射)