8

我正在尝试使用 Google 的 Cloud Speech API。这里有文档和代码示例:

https://cloud.google.com/speech/docs/basics
https://cloud.google.com/speech/docs/rest-tutorial

如果我将示例代码指向包含的文件 audio.raw,而不是简短的 .wav 文件,我可以让示例代码正常运行。

我不知道音频样本文件是什么格式:

$ file audio.raw 
audio.raw: data

我的 .wav 文件可能有 10 秒的音频,我得到一个空的结果。

我知道这个答案。

谷歌云语音 api 返回空结果

之前有人问过我的问题,但没有答案。

Cloud Speech API 支持哪些类型的音频?

我无法想象我必须正确获取音频文件的属性才能使其正常工作。我假设一个常见的用例,我的,是有人录制会议,不知道录制的参数,只想要一个文本文件。

4

2 回答 2

5

编辑 2020 年 5 月:似乎情况有所改善,这个答案不再正确:有关支持的格式(包括 WAV)的详细信息,请参阅新文档


截至 2016 年,WAV似乎不支持 e 格式。尽管这些格式被记录为受支持:

  • LINEAR16 未压缩的 16 位有符号 little-endian 样本。这是 Speech.asyncrecognize 唯一可以使用的编码。
  • FLAC 这是 Speech.syncrecognize 和 StreamingRecognize 的推荐编码,因为它使用无损压缩;因此识别准确性不会受到有损编解码器的影响。仅支持 16 位样本。并非支持 STREAMINFO 中的所有字段
  • MULAW 8 位样本,使用 G.711 PCMU/mu-law 压缩 14 位音频样本。
  • AMR 自适应多速率窄带编解码器。采样率必须为 8000 Hz。
  • AMR_WB 自适应多速率宽带编解码器。采样率必须为 16000 Hz。

https://cloud.google.com/speech/reference/rest/v1beta1/RecognitionConfig#AudioEncoding

于 2016-10-15T17:08:36.373 回答
1

根据 Google Cloud Speech Documentation:Speech-to-Text 支持带有 LINEAR16 或 MULAW 编码音频的 WAV 文件。 https://cloud.google.com/speech-to-text/docs/encoding

于 2019-02-19T09:49:57.157 回答