3

我是一名 Java 开发人员,我有几个与 Google Speech API V1Beta1 相关的问题。

问题1(同步识别案例):

我尝试将(通过 GCS)小尺寸(运行文件不到一分钟)的音频文件上传到谷歌语音 api 它正在工作但信心输出水平0.32497215只是。那是我的结果与我的音频输入不完全相同。

如何增加置信度输出?

问题 2(Asyncrecognize 案例):

我尝试了大尺寸的音频文件(超过一分钟的运行文件)。这个案例我使用了API 调用

https://speech.googleapis.com/v1beta1/speech:asyncrecognize?key=XXXXXXXXXXXXXXXXXXXX

有效载荷

"{"config":{"encoding":"LINEAR16","sample_rate": 16000},"audio":{"uri":"gs://" + bucketName +"/"+ objectName + ""}}"

在这里我得到了输出json

{"name": "57...........................95"}.

获得此输出后,我使用此名称值进行新的 API 调用(操作接口)。

https://speech.googleapis.com/v1beta1/operations/57.................................95?key=XXXXXXXXXXXXXXXXX

我得到了输出

{
 "name": "57....................................95",
 "done": true,
 "response": {
   "@type": "type.googleapis.com/google.cloud.speech.v1beta1.AsyncRecognizeResponse"
 }
}

如何使用此值进行工作?我需要获取音频语音文本。

请帮我解决这个问题。提前致谢。

4

1 回答 1

1

想法Question 1

您应该在RecognitionConfigobject 中提供更多详细信息,例如通过objectlanguageCode指定和添加提示。SpeechContext

回答Question 2

检查sample rate音频文件,您必须确保它等于您在请求中提供的速率。您可以检查它,例如使用以下代码soxi audio_file.flacsox此代码需要)。

于 2016-10-21T09:11:40.843 回答