python - 如何获得准确的音频时基

Question

我有兴趣使用音频文件作为及时发生的事件的记录。也就是说，我将有多个需要及时对齐的数据流，我想使用音频文件作为参考。所以，我想知道是否有可能获得音频流的实际时基，作为相对于实时时钟的引用？
我很欣赏人们可以根据样本计数和采样频率（例如 16KHz）来确定音频剪辑的持续时间。对于短片，这可能是一个很好的估计，但对于长时间（多小时的录制），这个估计有多准确？我想在多个小时内保持亚秒级的精度。

换句话说，音频文件是否存储音频录制的实际开始和停止时间，参考 RTC（实时时钟）。这将允许为音频文件中的每个样本生成一个时基。如果是这样，我可以从 python 音频库中获取这些数据吗？

我正在使用 MP4/AAC 在 Android 平台上进行编码和pydub后处理。

谢谢。

score 0 · Accepted Answer

我们想出了一个看似杂乱无章的答案，但老实说对我们来说效果很好。似乎音频格式规范不允许存储会话开始和结束的时间码。因此，我们将按下录制按钮的那一刻，以毫秒分辨率编码开始时间戳，作为文件名中的字符串（“2017-02-13_10-04-27-943”）并录制音频会话。然后当录制停止时，我们抓取另一个时间戳，以毫秒为单位计算时间差，然后在关闭文件后将持续时间作为字符串附加到文件名中（“Dur123456”）。因此，时间开始和持续时间参考 Android 手机上的 RTC（实时时钟）。然后我们可以将 WAV/PCM 时基重新映射到真实的持续时间。事实证明，“

python - 如何获得准确的音频时基

1 回答 1

Related

Reference