我曾经有一个场景,用户使用表演者的实时音频捕获音乐会场景,同时设备正在从音频广播设备下载实时流媒体。后来我用我替换了实时嘈杂音频(录制时捕获)已流式传输并保存在我的手机中(优质音频)。现在我在合并时手动设置音频偏移量,并根据反复试验,以便我可以在确切位置同步音频和视频活动。
现在我想做的是自动化音频同步的过程。而不是在给定的偏移量处将视频与清晰的音频合并,我想通过适当的同步自动将视频与清晰的音频合并。
为此,我需要找到我应该用清晰的音频替换嘈杂的音频的偏移量。例如,当用户开始录制并停止录制时,我将获取实时音频的样本并与实时流式传输的音频进行比较并获取确切的音频该音频的一部分并在完美的时间同步。
有谁知道如何通过比较两个音频文件并与视频同步来找到偏移量。?