问题标签 [google-speech-to-text-api]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
2187 浏览

python-3.x - 谷歌语音 - googleapiclient.errors.UnknownApiNameOrVersion:名称:语音版本:v1beta1

我有以下代码

它需要一个按名称命名的环境变量GOOGLE_APPLICATION_CREDENTIAL。参考:https ://cloud.google.com/speech-to-text/docs/reference/libraries 。所以我添加了包含以下数据的文件的位置(仅提及 JSON 文件中的键,因为其他信息是机密的)

但是当我运行上面的代码时,我得到了以下错误

当我搜索错误时,我发现了一个名为gapic-google-cloud-speech-v1beta1 的包。因此,也尝试在安装文件后运行该文件。但仍然得到同样的错误。

0 投票
0 回答
90 浏览

node.js - 谷歌语音到文本无法在 nodejs 上运行

我已经创建了语音到文本转换器的应用程序。react前端和nodejs API.i从react录制音频并将其发布到nodejs。但是google API结果为空。我该如何解决?

为什么总是得到空的结果?

那是我的代码。

ReactMic 录音机

NodeJs API

谁能帮我解决这个问题?

0 投票
0 回答
29 浏览

unity3d - 流式传输时,在强制执行 IsFinal 响应之前,一个人可以持续说话的时间是否有限制

这是一个两部分的问题。

我正在编写一个使用谷歌语音到文本流的统一应用程序,并且注意到如果用户继续谈论大约一分钟而没有暂停,谷歌即使他们还没有休息,也会发送 IsFinal。

用户不太可能直接说 1 分钟,但如果他们这样做,我们希望在单个响应中捕捉到这一点。这是故意的吗?我环顾四周,但不太确定。

另外......当用户确实休息时,我们可以将谷歌在发送 IsFinal 之前等待的秒数增加到 3 秒左右吗?

这样我们就可以在向用户发送响应之前增加我们等待的窗口,以防万一他们还没有完成。

可以理解,这可能与 1 分钟的限制相冲突。

我用来处理流媒体库的代码: https ://github.com/oshoham/UnityGoogleStreamingSpeechToText/blob/master/Runtime/StreamingRecognizer.cs

0 投票
1 回答
403 浏览

python - 使用 json 数据初始化 Python 变量

我有一个非常简单的情况:

如果客户端不返回任何内容,我想用一个空对象初始化响应。

怎么做?即在python中构造一个json对象。

0 投票
1 回答
209 浏览

python - 在云函数中运行异步函数

我正在尝试使用 Cloud Functions (python) 在本教程中实现 Speech-to-Text API

语音转文本长时间运行

这里实现的是一个异步的、长时间运行的函数。我的目标是让 Cloud Function 从站点下载音频,将其写入 S3,然后在音频的 S3 位置调用 Speech-to-Text API 客户端函数以返回转录文本。这是教程中的缩短代码:

但是,在音频太长的情况下,它甚至不适合 Cloud Function 中的最大超时,并且我在日志中得到超时。可能已由 Speech-to-Text API 完成,client.long_running_recognize但 Cloud Function 等不及了。在这种情况下我该怎么办?在 Python 中使用asyncio库是一个好的解决方案吗?

0 投票
1 回答
215 浏览

c# - 用 NAudio 录制音频让我无法接受

我正在录制音频以将其发送到 Google 语音到文本,但是当我使用 naudio 制作音频时,它只记录了我 5 秒,然后从那里停止录制。我复制了C#中的代码,这是我第一次使用这个API,但我不知道为什么它会打断我,如果我按下保存按钮时它应该停止录制,应用程序是一个带有2个按钮的简单表单,一个用于录制,另一个用于停止。

0 投票
1 回答
368 浏览

java - 为英语以外的语言创建 Google Speech to Text 语言环境

我想使用 Google Speech to Text 将乌尔都语语言集成到我的 android 应用程序中。根据谷歌的说法,乌尔都语支持语音到文本。你能指导我如何创建这个:

}

它有 Locale.English 我想要它用于乌尔都语,如谷歌所示:

如您所见,乌尔都语巴基斯坦出现在谷歌网站上。

0 投票
0 回答
97 浏览

google-speech-api - Google Speech API 字母和数字

我目前正在使用 Java 中的Google Speech Recognition API来重复用户说话时的输入内容。该程序适用于单词和数字,但当我使用字母和邮政编码时失败。

例如,我说M3X 5C9:它认为我在说“ em 3 ex 5 see 9 ”。

有没有办法让它只识别字母和数字?

0 投票
1 回答
317 浏览

ios - 如何将元数据谷歌语音传递给文本 api - swift ios

任何人都请帮我找到此示例中使用的 pod 的官方文档:https ://github.com/GoogleCloudPlatform/ios-docs-samples/tree/master/speech/Swift/Speech-gRPC-Streaming

此外,我正在开发一个 iOS 应用程序,在该应用程序中,我们使用流式方法将 Google 语音转换为文本,在示例中,您没有演示如何传递元数据,因此官方文档可能对如何在初始化时传递元数据有一些帮助,这里是完整的我想喂的配置:

这是我当前的代码:

0 投票
1 回答
510 浏览

asp.net-core-mvc - Google Speech To Text API 的 Twilio Base64 媒体负载没有响应

我需要使用 Google 语音到文本 api 从 twilio 电话中进行一些实时转录,并且我遵循了一些演示应用程序来展示如何设置它。我的应用程序位于 .net core 3.1 中,并且我正在使用带有 Twilio 定义的回调方法的 webhook。通过回调从 Twilio 检索媒体后,它作为原始音频以 base64 编码传递,如您在此处看到的。

https://www.twilio.com/docs/voice/twiml/stream

在 Live Transcribe 上引用了这个演示并试图模仿 c# 中的 case 语句。一切都正确连接,媒体和有效负载从 Twilio 很好地传递到我的应用程序中。

然后将音频字符串转换为 byte[] 以传递给需要转录音频的任务

我正在关注基于 Google 文档的示例,这些文档要么从文件流式传输,要么从音频输入(例如麦克风)流式传输。我的用例不同的是,我已经拥有每个音频块的字节。我引用的例子可以在这里看到。从流输入转录音频

下面是我对后者的实现,尽管使用了原始音频字节。当 Twilio websocket 连接命中媒体事件时,会命中下面的此任务。我将有效载荷直接传递给它。从我的控制台日志中,我得到了 Print Responses hit... 控制台日志,但它不会进入while (await responseStream.MoveNextAsync())块并将脚本记录到控制台。我没有收到任何错误(这会破坏应用程序。)这有可能吗?我还尝试将字节加载到内存流对象中,并将它们传递给 Google 文档示例。