python - 音频对齐（不同说话者的同一句话）

翻译自：https://stackoverflow.com/questions/46801713 2017-10-18T02:00:44.273

709 次

我对音频处理非常陌生。我有一个参考音频文件和几个其他录音（不同说话者说的同一句话 - 方言和持续时间不同），我想将所有音频文件与一个扭曲最少的音频参考文件对齐。我尝试使用 MFCC 和 Chroma 功能（python/librosa），但我不知道下一步该做什么。我正在阅读有关 DTW（动态时间扭曲）的对齐方式，这行得通吗？是否有已经这样做的示例/开源项目或音频工具？这似乎是一个已解决的问题，但我找不到它。请帮忙。

我正在阅读这个 - https://librosa.github.io/librosa_gallery/auto_examples/plot_music_sync.html但是如何在时域中保存对齐的音频？

这似乎相关 -使用 python 进行动态时间扭曲（最终映射）

python - 音频对齐（不同说话者的同一句话）

0 回答 0

Related

Reference