6

我想用语音数据增加缓冲区的音量。关键是我正在使用 DirectSound,并且我有一个主缓冲区和一个辅助缓冲区 - 所有流混合都是手动完成的。在语音聊天中,所有参与者都可以有独立的音量级别。我将每个流数据乘以一个值(增益)并将其相加到一个缓冲区。一切正常,但是当我尝试将数据乘以大于 1.0f 的值时 - 我听到一些剪辑或什么。

我试过使用 Audacity 效果压缩器,但这无助于减少奇怪的噪音。

也许我应该以其他方式修改增益?或者只是使用另一种后处理算法?

更新:哇,我刚刚发现了有趣的事情!我在增加音量之前和之后都转储了音频。

这是图片 剪辑的音频

对不起质量 - 我认为这就是声音应该出现的方式(我自己画了红线)。确实看起来值超出了示例数据类型。但我不明白为什么?我的样本缓冲区是 BYTE,但我只能通过短指针访问它。它已签名,但即使 *ptr 约为 15-20 千,也会发生剪裁。

4

1 回答 1

8

对于每个样本 - 将其转换为更大的数据类型 - 如果您有 16 位签名样本,它们最初适合 SHORT - 从流中提取它,然后转换为本地双精度,然后相乘,然后 CLIP,然后转换回 SHORT。

它必须以这种方式工作......

如果需要,我什至可以提供代码示例。

编辑:

您的图片是您在乘法之前没有扩展为更大类型的确切证据 - 您无法在 SHORT 上“捕获”剪裁条件,因为它会自动换行。

short* sampleBuffer;
...
short sample=*sampleBuffer;
double dsample=(double)sample * gain;
if (dsample>32767.0) {dsample=32767.0;}
if (dsample<-32768.0) {dsample=-32768.0;}
*sampleBuffer=(short)dsample;
sampleBuffer++;

还有一个编辑:

如果您有多个声音 - 首先将它们全部加倍 - 然后获得每个声音 - 然后添加它们 - 并将它们作为最后一步进行剪辑。

再编辑一次(+1 鼓舞了我):

如果你有 STEREO,同样的东西也可以,只需计算所有样本 x2 即

number of shorts = number of samples * 2.

于 2010-11-29T14:26:33.677 回答