问题标签 [google-cloud-speech]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
785 浏览

google-cloud-speech - Cloud Speech API 支持哪些类型的音频?

有很多音频格式(例如,mp3、m4a)、来源(例如,听写、命令、电话、会议)和设备(例如,电话、PC、物联网设备)。哪些最适合 Cloud Speech API?

0 投票
1 回答
1449 浏览

ruby-on-rails - Gcloud,ruby on rails,语音到文本

我正在尝试使用 Google 的新语音文本 API:https ://cloud.google.com/speech/docs/rest-tutorial 。他们目前有 python 和 node.js 示例。

不幸的是,我的申请是 RoR。我正在查看https://github.com/GoogleCloudPlatform/gcloud-ruby,这是一个与谷歌云服务(但不是语音)交互的宝石。我希望我可以将两者结合使用来提出一个可行的解决方案,但我对如何使用 API 的了解有限。

足够的背景,我的问题是:

  1. 有谁知道谷歌是否会推出 Ruby 版本的语音转文本 API?如果有,是否有时间表?
  2. 如果我不耐烦,我将如何使用他们当前的 API。我的意思是,是否有一个很好的资源可供某人学习如何使用通用 API?
0 投票
1 回答
1973 浏览

java - 找不到谷歌包“com.google.cloud.speech.v1beta1”

我正在尝试使用 Google Cloud Speech API 来识别语音。
我正在关注示例代码

https://github.com/GoogleCloudPlatform/java-docs-samples/tree/master/speech/grpc

我已经完成了运行mvn package,但找不到com.google.cloud.speech.v1beta1Spring MVC 应用程序中使用的包。

可以解析 com.google.cloud.speech.v1beta1 包

我如何找到这个包或如何在 Spring MVC maven 项目中使用它?谢谢。

0 投票
1 回答
914 浏览

java - 如何将 Wowza 流发送到 Google Cloud Speech API?

Wowza 给了我 rtsp://、rtmp:// 和 m3u8 流。我想将此发送到 Google Cloud Speech API,以便它即时转录流式传输。

这个 API 似乎只能接收纯字节表示,Github上的示例展示了如何使用文件来完成。

如何通过 Wowza 链接实现这一目标?

编辑:我的问题不同。在另一个问题中,我要求提供该功能的服务,在这个问题中,我专门讨论的是 Google Cloud Speech,以及如何使用该 API 来实现。

0 投票
0 回答
1292 浏览

api - 谷歌云语音 API C#

几年来,我一直使用 AT&T Watson 执行语音到文本的转录。作为一项服务,它一直是可靠且“好的”,但他们将在 10 月停止该服务。

我知道 MS Exchange 可以转录语音邮件...我假设它是通过 Microsoft.Speech 实现的?但我读过很多帖子说 Microsoft.Speech 不支持听写……另一方面,我看到了支持听写的 SAPI COM 示例(Microsoft.Speech 的基础)。

System.Speech 是一种需要培训的桌面解决方案,因此在转录语音邮件时不能选择。

我昨天尝试了 Bing 转录服务,与 AT&T 相比,这绝对是垃圾,Nuance 想要为他们的服务带来绝对的财富,所以这让我......

Google Cloud Speech API,但对于我的生活,我在寻找 2 天后找不到此 API 的 C# .Net 示例代码。

有没有人有谷歌云语音 API 的 c# 示例代码......顺便说一下,这是一个非常新的服务,所以去年的例子不适用于当前的 API。

0 投票
3 回答
10681 浏览

google-api - Google 语音识别 API 结果为空

我正在向 Google Cloud Speech API 执行异步请求,但我不知道如何获取操作结果:

请求发布:https://speech.googleapis.com/v1beta1/speech: asyncrecognize

身体:

返回:

{ "name": "469432517" }

所以,我发了一个帖子:https ://speech.googleapis.com/v1beta1/operations/469432517

返回:

我需要得到操作的结果:转录文本。

我怎样才能做到这一点?

0 投票
1 回答
415 浏览

node.js - 带有谷歌云语音 API 的 .flac 文件失败

我已经使用提供的文件从本地机器上成功运行了这个 nodejs 演示。现在我想使用我自己的文件,该文件作为我使用以下 sox 命令转换的文件开始(根据谷歌语音故障排除页面的第 3 步):.raw.wav

但是,当我尝试使用my-audio.flac. 我可以在我的机器上播放 flac 文件。

有什么建议么?

0 投票
0 回答
139 浏览

node.js - Google 流式语音识别出现错误“中止:错误 -83105”

当我使用 gRPC StreamingRecognize 识别 wav 文件时,有时会出现以下错误。我不知道如何解决它。

0 投票
0 回答
329 浏览

speech-to-text - 设置 Google Cloud Speech API 以转录采访

我有超过 100 小时的音频与需要转录为文本的纪录片的视频采访相关联 - 希望每 30 秒左右有某种时间码标记,以便视频可以轻松匹配编辑中的文本套房。

这些文件是 BWAV 24 位 96khz 和 WAV 16 位 48khz,持续时间从 20 分钟到 2 小时不等。

需要在 VM 中设置哪些资源才能执行此类活动?我怀疑这将是相当密集的计算,因此 VM 可能需要 32 个内核和相当数量的内存,但不需要实时响应,因此如果优先级低并且处理文件需要几个小时就可以了。我的预算微乎其微——300 美元几乎是我们能负担得起的所有文件的最高费用(这是我们不以每小时 75 美元以上的价格将这些文件发送到转录服务的原因之一)。

我已经有一个云平台帐户,但从未使用过。如果有人已经做过类似的事情并且可以给我一些帮助,那么我在四处挣扎是没有意义的。

0 投票
0 回答
1876 浏览

google-cloud-speech - Google Cloud Speech 使用自定义词汇

我想使用 Google Cloud Speech 来识别特定领域(医疗保健)中的语音。我知道它已经允许向识别器的词汇表中添加额外的单词(单词提示),但这必须在每次 API 调用时完成。您知道是否可以通过先验地创建自己的自定义词汇表来单独完成?