我想将音频编码从 mulaw 更改为线性,以便使用 Google 的线性语音识别模型。我正在使用电话频道,因此音频以 mulaw、8 位、8000Hz 编码。当我使用 Google Mulaw 模型时,识别一些简短的单词存在一些问题 -> 基本上它们根本无法识别 -> API 返回 None 我想知道更改 Linear 或 Flac 的编码是否是一个好习惯?我已经做到了,但我无法真正衡量这种改进的程度。
问问题
67 次
2 回答
0
将 LINEAR16 用于无标头音频数据或 FLAC 用于标头音频数据始终是最佳实践。它们都提供无损编解码器。将采样率设置为 16000 Hz 是一种很好的做法,否则您可以设置 sample_rate_hertz 以匹配音频源的本机采样率(而不是重新采样)。由于 Google Speech to Text API 提供了多种提高音频质量的方法,因此您可以使用World Level Confidence来衡量响应的准确性。
于 2022-01-04T09:03:47.487 回答
0
理想情况下,音频将首先使用线性16 ot flac 等无损编解码器进行录制。但是,一旦您以 mulaw 之类的格式将其发送到 Google 语音转文本之前对其进行转码就没有帮助了。
考虑使用model=phone_call
和use_enhanced=true
以获得更好的电话质量。对于快速实验,您可以使用 STT UI https://cloud.google.com/speech-to-text/docs/ui-overview。
于 2022-01-30T13:49:58.617 回答