google-cloud-speech - Cloud Speech API 支持哪些类型的音频？

翻译自：https://stackoverflow.com/questions/38485515 2016-07-20T16:04:55.627

785 次

0

有很多音频格式（例如，mp3、m4a）、来源（例如，听写、命令、电话、会议）和设备（例如，电话、PC、物联网设备）。哪些最适合 Cloud Speech API？

1 回答 1

4

哪些最适合 Cloud Speech API？

受支持的应该工作得最好：

LINEAR16 未压缩的 16 位有符号 little-endian 样本。这是 Speech.asyncrecognize 唯一可以使用的编码。
FLAC 这是 Speech.syncrecognize 和 StreamingRecognize 的推荐编码，因为它使用无损压缩；因此识别准确性不会受到有损编解码器的影响。
MULAW 8 位样本，使用 G.711 PCMU/mu-law 压缩 14 位音频样本。
AMR 自适应多速率窄带编解码器。采样率必须为 8000 Hz。
AMR_WB 自适应多速率宽带编解码器。采样率必须为 16000 Hz。

https://cloud.google.com/speech/reference/rest/v1beta1/RecognitionConfig#AudioEncoding

于 2016-10-15T18:10:20.197 回答