问题标签 [google-speech-to-text-api]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
122 浏览

python - 试图用 python 做一个语音识别程序,但程序似乎没有听到我的声音

每次我对着麦克风说话时,第一个 except 块都会运行,请帮助!

'''

'''

0 投票
3 回答
800 浏览

python - 与 Twilio“流”动词和 Websocket 一起使用时,Google Cloud Speech to Text Audio Timeout Error

我目前正在尝试制作一个可以实时转录电话的系统,然后在我的命令行中显示对话。为此,我使用了一个 Twilio 电话号码,该号码在被呼叫时会发出一个 http 请求。然后使用 Flask、Ngrok 和 Websockets 编译我的服务器代码,公开我的本地端口并传输数据,使用 TwiML 动词“Stream”将音频数据流式传输到 Google Cloud Speech-Text API。到目前为止,我已经在 GitHub ( https://github.com/twilio/media-streams/tree/master/python/realtime-transcriptions ) 上使用了 Twilio 的 python 演示。

我的服务器代码:

流.xml:

Twilio WebHook:

当我运行服务器代码然后调用 Twilio 号码时出现以下错误:

我无法弄清楚为什么我会收到音频超时错误?这是 Twilio 和 Google 的防火墙问题吗?编码问题?

任何帮助将不胜感激。

系统:Windows 10 Python 3.7.1 ngrok 2.3.35 Flask 1.1.2

0 投票
0 回答
1753 浏览

php - 在 Laravel 中使用 Google Speech-to-text 服务生成文本文件

我想从视频中生成文本文件。我在 Laravel 5.6 中使用了 Google Speech to Text 服务。

使用的服务/包

  1. 谷歌语音转文本
  2. 适用于 PHP 的 Google Cloud 语音

代码

结果

示例视频:https ://vimeo.com/425422475/ff471a7edb

我必须从上面的视频语音中生成文本。

我已成功从https://cloud.google.com/speech-to-text生成此视频的文本文件

请建议我如何使用 API 转换视频。

0 投票
0 回答
302 浏览

node.js - 如何停止将谷歌语音流式传输到文本 API 并在需要时重新开始?

现在在谷歌语音到文本 API 中,我正在做我想做的一切,除了当我想要的时候停止现在我试图在 API 中调用函数 stop()、pause() 并且其中八个不起作用

我正在使用这段代码,现在我尝试像这样调用这个函数record.recorder().stop()

女巫结果是 process.kill("SIGNSTP") 不是符号或无效

然后我试过了recodr.stop()

没有找到这个说的功能

然后尝试将所有内容放在一个类中并且delete google.TalktoMe()(这是包含所有内容的函数)然后我认为录音机停止工作但谷歌识别器仍在运行并且发现但是当它最终停止静音时它会输出巨大的错误有时让我应用程序停止工作。有没有人知道答案或解决这个问题2天我在文档中刮擦论坛中也没有任何内容并且没有回复评论如果有任何答案也非常感谢

0 投票
1 回答
171 浏览

python - 谷歌语音转文本时间戳是连续的,但口语之间有间隔

我已经使用谷歌的语音到文本来转录音频,在该音频中我启用了时间戳,直到那时才成为问题。

我的问题是时间戳是连续的,根据谷歌给出的时间戳(秒和纳秒),单词之间没有间隙,但是我提供的音频在单词之间有明显的间隙。有没有可能,我们可以让时间戳准确地说明音频中所说的单词的确切时间。

我正在尝试计算单词之间的差距,并且我将计算单词之间的沉默。我需要基于此提取沉默。任何帮助都是可观的。

0 投票
0 回答
81 浏览

python - 为什么 Google Cloud Speech to Text 只能转换一半的音频

代码是这样的:

我的音频文件是 43 秒的 wav 文件,采样率为 44100Hz,它有立体声通道。我尝试了相同的文件,仅将通道更改为单声道,但它仅将前 27 秒转换为相同的。我已经搜索了很多关于语音到文本 api 中的部分输出的信息,但我找不到类似的情况。

0 投票
1 回答
56 浏览

c# - 哪些算法可用于单词列表的匹配/配对?

我正在编写一些 C# 代码,以使用用于语言学习工具的 Google Speech-to-Text API 自动将音频映射到文本。我有一个从人工编写的源(成绩单)解析的单词列表,还有断句信息。我有一个带有时间戳的单词列表,这些单词来自对 Google API 的调用,其中没有断句信息。我希望按顺序找到匹配的单词,这样我就可以确定句子起点和终点的时间戳。

因为这适用于多种语言(大约 60 多种),并且因为文本使用了许多 Google API 尚不理解的过时单词(我希望他们的新增强模式很快就会出现在非英语语言中),以及由于某些事物在语音中呈现不同,这需要一种模糊匹配机制。

我实际上不需要匹配所有的单词。只要每个句子有相当数量的匹配词,我就可以将这些词用作锚点,然后在音频中寻找最长的静音间隙,并将其视为断句。但即使是这个基本的单词匹配算法,我也遇到了麻烦。我认为知道源文本中的句子中断应该会​​有所帮助。一个问题是,后面的文本中可能会出现匹配的句子,这可能会使所有内容都失败。所以我需要最好的有序匹配。

有人可以指出一些代码或算法细节吗?

0 投票
1 回答
511 浏览

python - 如何使 Google Speech to Text API 异步

我正在使用 Google Speech to Text API 来转换音频文件。问题是,在 Google Speech to text 中,我们必须等待操作完成,即使我们使用long_running_recognize().

有没有办法让它完全异步?因此,当我们上传音频文件时,它会为我们提供一个 operation_id,我们可以使用它随时异步下载转录。

0 投票
0 回答
57 浏览

node.js - 谷歌语音到文本 api(从 GCS 读取)

正如标题中所说,我无法让 s2t API 与 gcs 一起使用。

使用本地 <1m 文件时,它运行良好,但是当我为它提供 gcs 链接(无论是相同的短文件还是更长的文件)时,我得到的结果很糟糕。我要么一无所获,要么只是转录文件的一小部分(大约 2 分钟演讲中的 5 个单词)。

是否有一些我不知道的问题,或者是我在互联网上找不到的已知错误?这是使用的代码(google自己在js中的示例):

0 投票
1 回答
2098 浏览

python - 谷歌转录中 .flac 文件的 RecognitionConfig 错误

我正在尝试使用谷歌云转录音频文件。这是我的代码:

我不断收到此错误:

我无法弄清楚我做错了什么。我从谷歌云语音 API 文档中复制并粘贴了很多内容。有什么建议吗?