我在 Google Cloud Console 中创建了一个项目,并在该项目中启用了 Google Speech API,并创建了凭据。还用了谷歌推荐的transcribe.py,
https://cloud.google.com/speech/docs/samples
https://github.com/GoogleCloudPlatform/python-docs-samples/tree/master/speech
我可以将它与 Google 生成的 API 密钥一起使用,可以成功地将音频文件(30 秒)翻译成文本,但不完全,只有前 2-3 秒。我的帐户现在是免费试用的,所以我怀疑是不是因为我的帐户类型(免费试用)。
来自谷歌的回应就像 {"results": [{"alternatives": [{"confidence": 0.89569235, "transcript": "我在森林里野餐了,我要回家了,所以跟我来吧" }]}]}
音频文件是格式为 wav 文件(由 ffprobe 打印) Stream #0:0: Audio: pcm_s16le ([1][0][0][0] / 0x0001), 16000 Hz, 1 channels, s16, 256 kb/ s
音频文件已上传到谷歌驱动器,链接在这里 https://drive.google.com/file/d/0B3koIsnLksOLQXhvQ1ljS0dDXzg/view?usp=sharing
有人知道上述过程/步骤有什么问题吗?或者这是错误谷歌语音识别api?