naudio - 如何将 Linear16 PCM wav 转换为与 g711.org 相同质量的 G711 8-bit 8-khz MULAW wav？

Question

我正在使用 NAudio 尝试将来自 3rd 方 Text-To-Speech API 的 Linear16 PCM wav 文件转换为 G711 8 位 8-khz MULAW，该文件将用作电话提示。使用库作者文档和一些堆栈溢出帖子中的技术，特别是按照建议进行两步转换。

dynamic foo = JsonConvert.DeserializeObject<dynamic>(result);

byte[] decoded = Convert.FromBase64String(foo.audioContent.ToString());

WaveFormat newFormat = new WaveFormat(8000, 16, 1);
WaveFormat mulaw = WaveFormat.CreateMuLawFormat(8000, 1);

using (MemoryStream mem = new MemoryStream(decoded))
using (WaveFileReader reader = new WaveFileReader(mem))
using (var conversionStream = new WaveFormatConversionStream(newFormat, reader))
using (var convStream2 = new WaveFormatConversionStream(mulaw, conversionStream))
{
     WaveFileWriter.CreateWaveFile("voiceprompt_downsample_8bit-8khz.wav", convStream2);
     File.WriteAllBytes("voiceprompt_raw.wav", decoded);
}

不幸的是，转换后的文件的音频质量相当下降（在一定程度上这是可以预料的）。但是，如果我采用与上面代码运行完全相同的源文件并将其提交到g711.org上的转换器并选择“BroadWorks Classic (8Khz, Mono, u-law)”选项，则生成的音频听起来要好得多（特别注意，在我们的一些提示中，它不会用诸如“访问”和“密码”之类的词来剪裁/粉碎 S）。

我已经确认这两个音频文件（我用 NAudio 转换的那个和我用 g711.org 生成的那个）都可以通过我们的电话系统作为提示正常播放。

想知道是否有任何具有 NAudio 经验的人对我可以在 NAudio 中做些什么以使转换后的文件的输出质量与我从 g711.org 网站得到的内容相匹配有什么建议？

score 2 · Accepted Answer

我自己想通了，问题是我需要使用其他选项之一来重新采样音频而不是仅使用 WaveFormatConversionStream。使用 MediaFoundationResampler 重新采样后，音频质量比我通过 WaveFormatConversionStream 使用 ACM 获得的音频质量有了很大改善。

该文档帮助我实现了这一认识...

naudio - 如何将 Linear16 PCM wav 转换为与 g711.org 相同质量的 G711 8-bit 8-khz MULAW wav？

1 回答 1

Related

Reference