首先,我将大致说明我正在尝试做的事情并寻求建议。然后我将解释我目前的方法并询问我当前问题的答案。
问题
我有一个人说话的 MP3 文件。我想把它分成大致对应于一个句子或短语的片段。(我会手动完成,但我们正在谈论数小时的数据。)
如果您对如何以编程方式执行此操作或对某些现有实用程序有建议,我很想听听。(我知道语音活动检测并且我已经对其进行了一些研究,但我没有看到任何免费提供的实用程序。)
当前方法
我认为最简单的方法是以特定间隔扫描 MP3 并识别平均音量低于某个阈值的位置。然后我会使用一些现有的实用程序来切割这些位置的 mp3。
我一直在玩 pymad,我相信我已经成功地为 mp3 的每一帧提取了 PCM(脉冲编码调制)数据。现在我被困住了,因为我似乎无法真正理解 PCM 数据如何转换为相对音量。我也知道其他复杂的因素,如多通道、大端与小端等。
关于如何将一组 pcm 样本映射到相对体积的建议将是关键。
谢谢!