据说,MP3 帧包含 1152 个样本。那么什么是“样本”呢?左右声道的一对值?还是右声道或左声道的单个值?
2 回答
使用的语言可能会有点混乱。唯一的原因是每帧每个音频通道将有 1152 个(或 384 个,或 576 个,取决于 MPEG 版本和层)。由于压缩,数据实际存储的方式比每个通道的单个值更复杂。
如果您想了解更多信息,我会推荐http://blog.bjrn.se/2008/10/lets-build-mp3-decoder.html一个不错的详细博客,帮助读者了解 MP3 格式为了构建解码器。
您还可以查看http://wiki.hydrogenaudio.org/index.php?title=MP3#Polyphase_Filterbank_Formula以获取更多技术信息。链接锚定到一个特别说明的部分:“音频由每个音频通道的 1152 个样本的帧处理”但是整个页面描述了 MP3 格式的各个方面。
MP3 接收 2304 个 16 位 PCM 样本,每个通道有 1152 个,并且基本上在其上执行重叠的 MDCT,这样每个通道可以获得 576 个频域分量。因为它是半重叠的,所以下一个 MDCT 变换将包括每个通道 756 个新样本和 756 个旧样本,每个通道输出 756 个样本,因此您获得了从时域到频域的 1:1 样本映射。
心理声学模型是执行有损压缩的,我不知道细节。其输出被霍夫曼编码(这是无损压缩)。
每个 MP3 帧包含 2 个 576 个样本的颗粒(对应于 576 个新 PCM 样本和 576 个旧 PCM 样本)。这意味着每个通道 576 个样本,或总共 1152 个样本。因此,每个帧对应于每个通道 1152 个新的 PCM 样本,因此2304 个样本。每个颗粒包含两个通道的霍夫曼位,两个通道的比例因子。帧中的边信息由霍夫曼解码器使用。
样本通常指的是一个时间点,因此这将包括左右通道,但您可以将它们分开。