问题标签 [google-cloud-speech]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1685 浏览

google-api - 可以将 Google Speech API 配置为仅返回数字/字母吗?

是否可以将 Google Speech API 配置为仅返回数字和字母,而不是完整的单词?

用例是翻译加拿大邮政编码。前任。M 1 B 0 R 3. Google 可能会返回“Em 1 Be 0 Are 3”

我们尝试过:

  • 使用speechContexts和输入字母 A - Z,作为单独的短语。这提高了我们的准确性。我们在传递单个数字(例如 1、2、3)方面没有取得多大成功。
  • encoding使用和sampleRateHertz配置选项指定我们的 WAV 文件的编解码器和采样率。我们认为这样做没有任何改进,因为我们相信 Google 在自动识别采样率和编码方面已经做得很好。

我们的音频文件是 8000hz 并用“M-ULAW”编码。我们无法灵活地更改采样率或编码。

有没有办法让谷歌对这个用例做出更准确的回应?即使是更好的speechContexts短语的想法也是受欢迎的。

谢谢

0 投票
0 回答
216 浏览

c# - 谷歌云语音响应总是空错误

我通过"https://speech.googleapis.com/v1/speech:recognize?key=<my key>"以下方式向 GCS 发送音频:

一切都符合规范,但是,我一直得到一个空主体的错误标志。

在处理主要的 JSON impl 时,我得到了“无效参数”等......但现在我正在流式传输 88200 个 16 位未压缩音频字节块,我不断收到一个错误,没有附加文本 - 甚至没有一个代码。有没有人遇到过类似的情况?

如果相关,我从 Unity 中的 AudioClip 获取音频,然后将 32 位 float[] 转换为 byte[originalAudio.Length * sizeof(float)],然后根据需要转换为 base64。

谢谢。

0 投票
2 回答
3173 浏览

gcloud - 如何在终端中取消设置/覆盖 GOOGLE_APPLICATION_CREDENTIALS 环境变量?

我需要为我的应用程序使用“Google 语音 API”。为此,我安装了“谷歌云存储 SDK”。我按照此链接“ https://cloud.google.com/sdk/docs/quickstart-debian-ubuntu ”安装gcloud。

然后我在终端上运行了这个命令“ set GOOGLE_APPLICATION_CREDENTIALS /path/to/google-speech-API-key/key.json”来设置 GOOGLE_APPLICATION_CREDENTIALS。但是当我尝试测试时,我得到了这个异常 "Error reading credential file from environment variable GOOGLE_APPLICATION_CREDENTIALS, value '/path/to/google-speech-API-key': File does not exist"。我确定该目录存在并且它具有所有权限。

然后我运行这个命令"gcloud auth application-default login"来实际设置默认键。我收到以下警告

那么,现在我该如何取消设置或覆盖 GOOGLE_APPLICATION_CREDENTIALS?

0 投票
1 回答
1182 浏览

java - 谷歌云语音 API 添加 SpeechContext

我想在我的应用程序中添加一些关键字,以便 API 可以更有效地识别口语单词。例如 I m having trouble recognizing the some Italian words that starts with E,(E` per me) 例如。或德语(er geht)。

这是我的代码:

为不同情况设置语言:

0 投票
1 回答
401 浏览

google-cloud-speech - 稍后获取长时间运行的谷歌云语音api操作结果

我正在将 ruby​​ api 用于谷歌云语音 api。以下代码返回一个操作对象。

operation.wait_until_done!可以轮询操作直到完成。但是,我的音频文件大约 30 分钟长。所以这会在很长一段时间内阻止我的进程。

以后可以得到操作的结果吗?我知道我可以打电话operation.id来获取操作的唯一标识符。以后可以使用这个来获得操作的结果吗?

0 投票
2 回答
1266 浏览

node.js - 在 npm @google-cloud/speech 中使用 API 密钥

这是来自https://www.npmjs.com/package/@google-cloud/speech的代码

如何在使用 @google-cloud/speech 时传递我的 API 密钥进行身份验证?我阅读了文档并查看了示例,但他们没有谈论使用 API 密钥。有什么方法可以使用 API 密钥进行身份验证?

0 投票
2 回答
814 浏览

google-cloud-speech - MULAW - 音频数据传输太慢

我在流模式下的语音识别有问题。我的音频源是 VoIP 电话协议 (SIP),它允许您以以下格式输出音频数据:“encoding”:“Mulaw”,“sampleRateHertz”:8000

  • 当我以流模式发送新的数据部分时,出现异常:“Status(StatusCode=OutOfRange, Detail="音频数据传输速度太慢。请大约实时传输音频数据。”)”
  • 为了验证,我以这种格式将数据写入磁盘。在我读取数据并以流模式将其分块发送后,一切正常并返回结果。

事实证明,该错误仅实时出现。我寻求帮助。

0 投票
1 回答
215 浏览

speech-recognition - 谷歌云语音api直播识别

我已经实现了云语音 API 流识别服务。我能够传递 FLAC 文件并获得输出,但它没有连续识别并且没有发出仍然说话的声音。一旦我的录音完成,那么只有我得到来自云 API 的响应。请建议我如何从谷歌语音 API 获得持续识别。请帮我

0 投票
2 回答
115 浏览

google-cloud-speech - 时间戳似乎允许结果中某些单词的持续时间为 0 秒,这是一个错误吗?

使用谷歌云语音 api 时,新词准确时间戳/时间码功能似乎允许0结果中某些词的秒持续时间,这是一个示例

... { startTime: '48.800s', endTime: '48.800s', word: 'a' }, { startTime: '48.800s', endTime: '49.200s', word: 'kindly' }, ...

这是一个错误吗?

为了测试,我使用了来自音频档案“Arthur the Rat”、“USA - General mid-west Speaker (Michigan)”的剪辑。

0 投票
2 回答
422 浏览

ruby - 保存 Google Cloud Speech API 操作(作业)对象以稍后检索结果

我正在努力将 Google Cloud Speech Api 与 ruby​​ 客户端(v0.22.2)一起使用。

我可以执行长时间运行的作业,如果我使用可以得到结果

但这会在很长一段时间内锁定服务器。

根据 API 文档,我真正需要的只是操作名称(id)。

有没有办法从操作名称创建一个作业对象并以这种方式检索它?我似乎无法创建一个功能性的新作业对象,例如使用来自@grpc_op 的 id

我想做的是:


真的希望这对某人有意义。与谷歌的 ruby​​ 客户端进行了相当多的斗争,因为一切似乎都被翻译成比使用 API 所需的对象复杂得多的对象。我在这里缺少一些技巧吗?