问题标签 [google-cloud-speech]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
google-api - 可以将 Google Speech API 配置为仅返回数字/字母吗?
是否可以将 Google Speech API 配置为仅返回数字和字母,而不是完整的单词?
用例是翻译加拿大邮政编码。前任。M 1 B 0 R 3. Google 可能会返回“Em 1 Be 0 Are 3”
我们尝试过:
- 使用
speechContexts
和输入字母 A - Z,作为单独的短语。这提高了我们的准确性。我们在传递单个数字(例如 1、2、3)方面没有取得多大成功。 encoding
使用和sampleRateHertz
配置选项指定我们的 WAV 文件的编解码器和采样率。我们认为这样做没有任何改进,因为我们相信 Google 在自动识别采样率和编码方面已经做得很好。
我们的音频文件是 8000hz 并用“M-ULAW”编码。我们无法灵活地更改采样率或编码。
有没有办法让谷歌对这个用例做出更准确的回应?即使是更好的speechContexts
短语的想法也是受欢迎的。
谢谢
c# - 谷歌云语音响应总是空错误
我通过"https://speech.googleapis.com/v1/speech:recognize?key=<my key>"
以下方式向 GCS 发送音频:
一切都符合规范,但是,我一直得到一个空主体的错误标志。
在处理主要的 JSON impl 时,我得到了“无效参数”等......但现在我正在流式传输 88200 个 16 位未压缩音频字节块,我不断收到一个错误,没有附加文本 - 甚至没有一个代码。有没有人遇到过类似的情况?
如果相关,我从 Unity 中的 AudioClip 获取音频,然后将 32 位 float[] 转换为 byte[originalAudio.Length * sizeof(float)],然后根据需要转换为 base64。
谢谢。
gcloud - 如何在终端中取消设置/覆盖 GOOGLE_APPLICATION_CREDENTIALS 环境变量?
我需要为我的应用程序使用“Google 语音 API”。为此,我安装了“谷歌云存储 SDK”。我按照此链接“ https://cloud.google.com/sdk/docs/quickstart-debian-ubuntu ”安装gcloud。
然后我在终端上运行了这个命令“ set GOOGLE_APPLICATION_CREDENTIALS /path/to/google-speech-API-key/key.json
”来设置 GOOGLE_APPLICATION_CREDENTIALS。但是当我尝试测试时,我得到了这个异常
"Error reading credential file from environment variable GOOGLE_APPLICATION_CREDENTIALS, value '/path/to/google-speech-API-key': File does not exist"
。我确定该目录存在并且它具有所有权限。
然后我运行这个命令"gcloud auth application-default login"
来实际设置默认键。我收到以下警告
那么,现在我该如何取消设置或覆盖 GOOGLE_APPLICATION_CREDENTIALS?
java - 谷歌云语音 API 添加 SpeechContext
我想在我的应用程序中添加一些关键字,以便 API 可以更有效地识别口语单词。例如 I m having trouble recognizing the some Italian words that starts with E
,(E` per me) 例如。或德语(er geht)。
这是我的代码:
为不同情况设置语言:
google-cloud-speech - 稍后获取长时间运行的谷歌云语音api操作结果
我正在将 ruby api 用于谷歌云语音 api。以下代码返回一个操作对象。
我operation.wait_until_done!
可以轮询操作直到完成。但是,我的音频文件大约 30 分钟长。所以这会在很长一段时间内阻止我的进程。
以后可以得到操作的结果吗?我知道我可以打电话operation.id
来获取操作的唯一标识符。以后可以使用这个来获得操作的结果吗?
node.js - 在 npm @google-cloud/speech 中使用 API 密钥
这是来自https://www.npmjs.com/package/@google-cloud/speech的代码
如何在使用 @google-cloud/speech 时传递我的 API 密钥进行身份验证?我阅读了文档并查看了示例,但他们没有谈论使用 API 密钥。有什么方法可以使用 API 密钥进行身份验证?
google-cloud-speech - MULAW - 音频数据传输太慢
我在流模式下的语音识别有问题。我的音频源是 VoIP 电话协议 (SIP),它允许您以以下格式输出音频数据:“encoding”:“Mulaw”,“sampleRateHertz”:8000
- 当我以流模式发送新的数据部分时,出现异常:“Status(StatusCode=OutOfRange, Detail="音频数据传输速度太慢。请大约实时传输音频数据。”)”
- 为了验证,我以这种格式将数据写入磁盘。在我读取数据并以流模式将其分块发送后,一切正常并返回结果。
事实证明,该错误仅实时出现。我寻求帮助。
speech-recognition - 谷歌云语音api直播识别
我已经实现了云语音 API 流识别服务。我能够传递 FLAC 文件并获得输出,但它没有连续识别并且没有发出仍然说话的声音。一旦我的录音完成,那么只有我得到来自云 API 的响应。请建议我如何从谷歌语音 API 获得持续识别。请帮我
google-cloud-speech - 时间戳似乎允许结果中某些单词的持续时间为 0 秒,这是一个错误吗?
使用谷歌云语音 api 时,新词准确时间戳/时间码功能似乎允许0
结果中某些词的秒持续时间,这是一个示例
...
{ startTime: '48.800s', endTime: '48.800s', word: 'a' },
{ startTime: '48.800s', endTime: '49.200s', word: 'kindly' },
...
这是一个错误吗?
为了测试,我使用了来自音频档案“Arthur the Rat”、“USA - General mid-west Speaker (Michigan)”的剪辑。
ruby - 保存 Google Cloud Speech API 操作(作业)对象以稍后检索结果
我正在努力将 Google Cloud Speech Api 与 ruby 客户端(v0.22.2)一起使用。
我可以执行长时间运行的作业,如果我使用可以得到结果
但这会在很长一段时间内锁定服务器。
根据 API 文档,我真正需要的只是操作名称(id)。
有没有办法从操作名称创建一个作业对象并以这种方式检索它?我似乎无法创建一个功能性的新作业对象,例如使用来自@grpc_op 的 id
我想做的是:
真的希望这对某人有意义。与谷歌的 ruby 客户端进行了相当多的斗争,因为一切似乎都被翻译成比使用 API 所需的对象复杂得多的对象。我在这里缺少一些技巧吗?