3

在我的 POC 中,我收到了来自 Twilio 的 8kHz mulaw 对话流,我想使用需要获取 16KHz 和 PCM 音频的 Amazon Transcribe 对其进行转录。

我在这里找到了如何转换文件,但在流式传输中未能做到这一点......文件的代码是:

File sourceFile = new File("<Source_Path>.wav");
File targetFile = new File("<Destination_Path>.wav");
AudioInputStream sourceAudioInputStream = AudioSystem.getAudioInputStream(sourceFile);

AudioInputStream targetAudioInputStream=AudioSystem.getAudioInputStream(AudioFormat.Encoding.PCM_SIGNED, sourceAudioInputStream);
System.out.println("Sample Rate1 "+targetAudioInputStream.getFormat().getFrameRate());
AudioFormat targetFormat = new AudioFormat(new AudioFormat.Encoding("PCM_SIGNED"), 16000, 16, 1, 2, 8000, false);

AudioInputStream targetAudioInputStream1 = AudioSystem.getAudioInputStream(targetFormat, targetAudioInputStream);
System.out.println("Sample Rate "+targetAudioInputStream1.getFormat().getFrameRate());

try {
    AudioSystem.write(targetAudioInputStream1, AudioFileFormat.Type.WAVE, targetFile);
} catch (IOException e) {
    e.printStackTrace();
}

实际上,Twilio 给了我一个 Base64(8KHz,mulaw)的播放负载,但我必须将它转换为 16KHz,PCM。

4

1 回答 1

2

您需要一个 G.711 解码器和音频重采样器。

要遵循的步骤:

  1. 使用 base64 解码器对接收到的有效负载进行解码。

  2. 使用此有效负载缓冲区并使用 G.711 解码器进行解码(mulaw 到 pcm)

  3. G.711 解码器的输出需要提供给重采样器进行上采样(8->16 KHz)

最后,所有缓冲区都准备好 PCM 16KHz。

于 2020-01-16T16:38:07.307 回答