audio - 从 mulaw 转换为线性会影响音频质量吗？

Question

我想将音频编码从 mulaw 更改为线性，以便使用 Google 的线性语音识别模型。我正在使用电话频道，因此音频以 mulaw、8 位、8000Hz 编码。当我使用 Google Mulaw 模型时，识别一些简短的单词存在一些问题 -> 基本上它们根本无法识别 -> API 返回 None 我想知道更改 Linear 或 Flac 的编码是否是一个好习惯？我已经做到了，但我无法真正衡量这种改进的程度。

score 0 · Accepted Answer

将 LINEAR16 用于无标头音频数据或 FLAC 用于标头音频数据始终是最佳实践。它们都提供无损编解码器。将采样率设置为 16000 Hz 是一种很好的做法，否则您可以设置 sample_rate_hertz 以匹配音频源的本机采样率（而不是重新采样）。由于 Google Speech to Text API 提供了多种提高音频质量的方法，因此您可以使用World Level Confidence来衡量响应的准确性。

score 0 · Accepted Answer

理想情况下，音频将首先使用线性16 ot flac 等无损编解码器进行录制。但是，一旦您以 mulaw 之类的格式将其发送到 Google 语音转文本之前对其进行转码就没有帮助了。

考虑使用model=phone_call和use_enhanced=true以获得更好的电话质量。对于快速实验，您可以使用 STT UI https://cloud.google.com/speech-to-text/docs/ui-overview。

audio - 从 mulaw 转换为线性会影响音频质量吗？

2 回答 2

Related

Reference