问题标签 [google-cloud-speech]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
google-cloud-speech - Cloud Speech API 支持哪些类型的音频?
有很多音频格式(例如,mp3、m4a)、来源(例如,听写、命令、电话、会议)和设备(例如,电话、PC、物联网设备)。哪些最适合 Cloud Speech API?
ruby-on-rails - Gcloud,ruby on rails,语音到文本
我正在尝试使用 Google 的新语音文本 API:https ://cloud.google.com/speech/docs/rest-tutorial 。他们目前有 python 和 node.js 示例。
不幸的是,我的申请是 RoR。我正在查看https://github.com/GoogleCloudPlatform/gcloud-ruby,这是一个与谷歌云服务(但不是语音)交互的宝石。我希望我可以将两者结合使用来提出一个可行的解决方案,但我对如何使用 API 的了解有限。
足够的背景,我的问题是:
- 有谁知道谷歌是否会推出 Ruby 版本的语音转文本 API?如果有,是否有时间表?
- 如果我不耐烦,我将如何使用他们当前的 API。我的意思是,是否有一个很好的资源可供某人学习如何使用通用 API?
java - 找不到谷歌包“com.google.cloud.speech.v1beta1”
我正在尝试使用 Google Cloud Speech API 来识别语音。
我正在关注示例代码
https://github.com/GoogleCloudPlatform/java-docs-samples/tree/master/speech/grpc
我已经完成了运行mvn package
,但找不到com.google.cloud.speech.v1beta1
Spring MVC 应用程序中使用的包。
可以解析 com.google.cloud.speech.v1beta1 包
我如何找到这个包或如何在 Spring MVC maven 项目中使用它?谢谢。
java - 如何将 Wowza 流发送到 Google Cloud Speech API?
Wowza 给了我 rtsp://、rtmp:// 和 m3u8 流。我想将此发送到 Google Cloud Speech API,以便它即时转录流式传输。
这个 API 似乎只能接收纯字节表示,Github上的示例展示了如何使用文件来完成。
如何通过 Wowza 链接实现这一目标?
编辑:我的问题不同。在另一个问题中,我要求提供该功能的服务,在这个问题中,我专门讨论的是 Google Cloud Speech,以及如何使用该 API 来实现。
api - 谷歌云语音 API C#
几年来,我一直使用 AT&T Watson 执行语音到文本的转录。作为一项服务,它一直是可靠且“好的”,但他们将在 10 月停止该服务。
我知道 MS Exchange 可以转录语音邮件...我假设它是通过 Microsoft.Speech 实现的?但我读过很多帖子说 Microsoft.Speech 不支持听写……另一方面,我看到了支持听写的 SAPI COM 示例(Microsoft.Speech 的基础)。
System.Speech 是一种需要培训的桌面解决方案,因此在转录语音邮件时不能选择。
我昨天尝试了 Bing 转录服务,与 AT&T 相比,这绝对是垃圾,Nuance 想要为他们的服务带来绝对的财富,所以这让我......
Google Cloud Speech API,但对于我的生活,我在寻找 2 天后找不到此 API 的 C# .Net 示例代码。
有没有人有谷歌云语音 API 的 c# 示例代码......顺便说一下,这是一个非常新的服务,所以去年的例子不适用于当前的 API。
google-api - Google 语音识别 API 结果为空
我正在向 Google Cloud Speech API 执行异步请求,但我不知道如何获取操作结果:
请求发布:https://speech.googleapis.com/v1beta1/speech: asyncrecognize
身体:
返回:
{ "name": "469432517" }
所以,我发了一个帖子:https ://speech.googleapis.com/v1beta1/operations/469432517
返回:
我需要得到操作的结果:转录文本。
我怎样才能做到这一点?
node.js - 带有谷歌云语音 API 的 .flac 文件失败
我已经使用提供的文件从本地机器上成功运行了这个 nodejs 演示。现在我想使用我自己的文件,该文件作为我使用以下 sox 命令转换的文件开始(根据谷歌语音故障排除页面的第 3 步):.raw
.wav
但是,当我尝试使用my-audio.flac
. 我可以在我的机器上播放 flac 文件。
有什么建议么?
node.js - Google 流式语音识别出现错误“中止:错误 -83105”
当我使用 gRPC StreamingRecognize 识别 wav 文件时,有时会出现以下错误。我不知道如何解决它。
speech-to-text - 设置 Google Cloud Speech API 以转录采访
我有超过 100 小时的音频与需要转录为文本的纪录片的视频采访相关联 - 希望每 30 秒左右有某种时间码标记,以便视频可以轻松匹配编辑中的文本套房。
这些文件是 BWAV 24 位 96khz 和 WAV 16 位 48khz,持续时间从 20 分钟到 2 小时不等。
需要在 VM 中设置哪些资源才能执行此类活动?我怀疑这将是相当密集的计算,因此 VM 可能需要 32 个内核和相当数量的内存,但不需要实时响应,因此如果优先级低并且处理文件需要几个小时就可以了。我的预算微乎其微——300 美元几乎是我们能负担得起的所有文件的最高费用(这是我们不以每小时 75 美元以上的价格将这些文件发送到转录服务的原因之一)。
我已经有一个云平台帐户,但从未使用过。如果有人已经做过类似的事情并且可以给我一些帮助,那么我在四处挣扎是没有意义的。
google-cloud-speech - Google Cloud Speech 使用自定义词汇
我想使用 Google Cloud Speech 来识别特定领域(医疗保健)中的语音。我知道它已经允许向识别器的词汇表中添加额外的单词(单词提示),但这必须在每次 API 调用时完成。您知道是否可以通过先验地创建自己的自定义词汇表来单独完成?