问题标签 [google-speech-to-text-api]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
163 浏览

google-cloud-platform - How do serialize and deserialize a `longRunningRecognize` operation to get its result later?

I'm using firebase cloud functions to transcribe user-uploaded audio files with the example code for longRunningRecognize:

This code works fine for short audio files that can be transcribed faster than the 9-minute firebase cloud function maximum execution limit, but 1) many of my ~hour-long user-uploaded files don't get transcribed that quickly, and 2) it seems wasteful to have a cloud function getting billed for each tenth of a second it's running just sitting around waiting for an API response.

I think the obvious fix here would be for Google's Speech-to-Text API to support webhooks.

Until that happens, how can I serialize and deserialize the SpeechClient operation so I can get the result of this transcription job later from a scheduled function?

Specifically, I'm looking for something that would work like the made-up SERIALIZE and DESERIALIZE functions in this example:

0 投票
1 回答
53 浏览

php - 在 PHP 中同时执行多个语句/行

我确信有很多人有相同的查询,我想同时执行 2 行。不是两个脚本同时使用 PHP 编码。例如,我有一个文件必须发送到 google API 以进行语音识别,同时我想执行另一行,我不希望我的程序等待 API 给出响应然后执行。

通常上述语句需要 3 到 4 秒才能响应,我希望另一行像播放录音一样同时执行。

让我知道你的意见和想法。

注意:我不是 PHP 程序员,我只是一个试图学习 PHP 的系统管理员。

0 投票
1 回答
58 浏览

google-cloud-platform - Google Speech to Text 最佳值

我正在尝试优化 Node.js 应用程序中的 Speech to Text 调用值。我正在尝试确定它们是否是当前的最佳实践。

我了解 Speech to Text 推荐采用 16,000Hz 采样率的 LINEAR16 编码,但这对于以 8000hz 发送且目前 Twilio 仅提供 MULAW 编码的 VOIP 是不可能的。

我想知道的是用于“模型”“use_enhanced”和“信心”的值是好的?

0 投票
1 回答
191 浏览

speech-recognition - Python 中的 Google 语音识别 API

我在python中使用谷歌语音到文本API来使用这个函数将语音转换为文本

我的问题是这些数据是否存储在谷歌中?这些是非常敏感的数据,我不希望它们存储在谷歌云中。我在他们的文档中发现,默认情况下,Speech-to-Text 不会记录客户音频数据或转录本。为了帮助 Speech-to-Text 更好地满足您的需求,您可以选择加入数据记录程序。

0 投票
1 回答
37 浏览

google-speech-to-text-api - Gcloud ml语音识别 - 不返回国家字符

我正在尝试使用来自谷歌的语音到文本云库。当我在命令行上使用此命令时:

它返回读取的文本,但没有国家字符,在这种情况下它返回:

所有国家字符都替换为 ? 特点。

我在 api doc 中搜索语音到文本,但看起来,没有设置返回字符集的参数。有谁知道,如何获得与民族字符的结果?谢谢你的帮助。

0 投票
1 回答
544 浏览

python - 语音识别(Python):如何解决“RequestError:错误请求”?

我的问题

我正在使用Uberi 的 python 语音识别库来将 .wav 音频文件转录为纯文本。但是,当我使用 Google Speech Recognition 运行我的代码时,我得到了一个 RequestError。
对于这个(特定的)错误,我在语音识别 GitHub 上发现了一个Opened Issue,但没有任何答案。

我该如何解决这个问题?我知道我可以尝试使用不同的引擎来代替 Google;但是看起来他们都需要一个密钥,我希望在没有密钥的情况下转录我的文件。

我的代码

错误

speech_recognition.RequestError: recognition request failed: Bad Request

请求错误

一个主意

一个可能的原因可能是我的 .wav (~ 1 GB) 的大小。稍后我将尝试使用一个小的 .wav 运行我的代码来检查它。

0 投票
1 回答
80 浏览

audio - 谷歌云语音到某些短词的文本困难

我用 Angular/websockets/node js 和谷歌语音转文本 api 构建了一个语音识别系统。

我在几乎所有单词上都表现得很好,但是“no”这个词确实存在问题 - 似乎“no”这个词甚至没有传递给 API,因为没有中间结果发生。对于诸如“是”之类的词、更长的词或偶数(1、2、3 等)不会出现此问题。

IE th .on('data', (data) => {ofstreamingRecognise什么都不输出 - 似乎直到它“听到”诸如“是”、“你好”等词,但不是“不”而没有很多 umph。

有任何想法吗?

配置:

0 投票
1 回答
77 浏览

botframework - 收到后立即从“UnmixedMeetingAudio”缓冲区创建转录 - 具有应用程序托管媒体的机器人

我使用此处提供的示例创建了一个使用 bot 框架 (.net) 和应用程序托管媒体的机器人。Bot 参加 Microsoft Teams 中的任何传入点对点或组呼叫。AudioMediaReceived在会议期间,当参与者在示例中提供的类内的事件处理程序中发言时,我能够接收音频缓冲区CallHandler.cs。现在我想从中生成成绩单。我想要一些关于:

这可以在会议结束时完成吗,我很困惑,因为它在许多地方 ( 1 )( 2 )

“您不得使用此 SDK 记录或以其他方式保存您的机器人访问的通话或会议中的媒体内容”

.

这适合什么场景?是否可以从收到的字节数组(UnmixedAudioBuffer 数据)中生成 wave(.wav) 文件,并在会议结束时将其用于转录?

由于我们以非常快的速度接收音频帧(每秒 50 帧),如果我要异步实时生成脚本,我应该怎么做。是关于将缓冲区数据转换为 .wav 还是在内存流中并使用一些云语音服务/API?有微软提供的语音服务和谷歌云提供的语音转文本资源。非常感谢您的指导。

0 投票
0 回答
66 浏览

node.js - Google 语音转文本 API 错误计费状态已关闭,计费设置正确且处于活动状态

首先感谢您的关注

我正在尝试使 google 语音到文本 API 文档示例在我使用 Nuxt.js 创建的网站中工作。以下 Javascript 代码在 Express.js / Node.js 的 serverMiddleware 中运行,并与我在 localhost 中的所有 Nuxt 项目一起运行。

如您所见,这里没有什么不可思议的;只有谷歌文档的测试示例略有变化,但没有任何错误。

我的错误来自计费。它说 :ERROR 7 PERMISSION_DENIED: The billing account for the owning project is disabled in state closed

我尝试在 Google Cloud Platform 控制台中重新创建一个新项目,其中包含新的结算信息和一个全新的服务帐户。服务帐户文件已正确设置为我的项目及其 env 变量,对我来说一切似乎都很好。

我向谷歌帮助聊天寻求帮助,助手对我说:

我实际上已经检查了这个项目,并且可以确认与此关联的计费帐户已经处于活动状态并且信誉良好。另外,我可以在这里看到你是它的项目所有者,所以你应该能够访问它。

所以我真的不知道我能做什么。作为备份解决方案,我正在尝试使用简单的 API 密钥使其工作,但如果有人可以帮助我使服务帐户工作,这对我来说将是最好的方法。

感谢您的帮助,祝您有美好的一天!

0 投票
1 回答
591 浏览

android - Flutter Speech to Text 无法在 Android 上运行

我在 Flutter 中有一个适用于 Android 和 iOS 的应用程序。在 iOS 上一切都很完美。但在 Android 上,我在语音转文本方面遇到了一些问题......

我正在使用这个插件:https ://pub.flutter-io.cn/packages/speech_to_text/

我的 Android 代码是:

每隔 11 秒,我就会使用以下代码再次开始收听:

但是,一旦我开始 lisening,我就会得到以下日志:

该代码与之前工作的代码相同,它甚至不会在每次 lisening 工作之前发出“哔”声。android 政策或插件版本是否有任何变化可能导致此问题?

同样在主文件夹和调试文件夹的 AndroidManifest.xml 中,我有: