问题标签 [google-speech-to-text-api]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
301 浏览

google-cloud-platform - Google Speech Diarization 标签一直在变化

我正在构建一个应用程序,以使用启用了扬声器分类的 Google Speech-To-Text转录实时音频流(有关背景,请参阅先前的问题:123)。理想情况下,输出应如下所示:

虽然我当前的 Google STT 设置可以相对较好地转录输入音频,但扬声器分类并没有像我预期的那样工作。谷歌会在每次回复中发送完整的文字记录,但每次说话人标签(说话人 1 和说话人 2)都会因先前识别的文本而改变。我已经实现了 Google 的示例 Python 脚本:

这是第一个响应的示例输出:

但下一个回应给出:

当新音频作为输入到达时,模型是否会不断更新?如果是这样,在一个音频流中创建具有多个扬声器的转录服务的好方法是什么?

我不指望银弹,但希望有人能指出我正确的方向。

0 投票
1 回答
381 浏览

node.js - Node.js 中的 Google Speech-to-Text 引发错误“{ 处的文件不存在,或者它不是文件。ENOENT:没有这样的文件或目录,lstat”

我正在尝试在我的网络应用程序中实现 Google 的 Speech to Text 转录,但遇到了很多麻烦。

我决定从底层开始,看看我是否至少可以实现他们的 node.js 快速入门示例。在下面的两个示例中(一个旨在转录本地音频文件,另一个旨在转录 uri 中的音频),我最终在控制台中遇到了完全相同的错误:

(节点:4836)UnhandledPromiseRejectionWarning:错误:{ 处的文件不存在,或者它不是文件。ENOENT: 没有这样的文件或目录,lstat '[Path to Project Folder]/{'

URI 示例(基于

本地音频文件示例(基于

我在这里想念什么?提前致谢!

0 投票
1 回答
152 浏览

google-cloud-platform - 语音转文本和视频智能 SPEECH_TRANSCRIPTION 有什么关系?

我的目标是使用语音到文本模型处理多个视频。

令人困惑的是,谷歌有两种似乎做同样事情的产品。

这些产品之间的主要区别是什么?

  1. 谷歌云语音转文本:https ://cloud.google.com/speech-to-text/docs/basics

    • Speech-to-Text 具有用于解释音频的“增强视频”模型。
  2. 谷歌视频智能:https ://cloud.google.com/video-intelligence/docs/feature-speech-transcription

    • VI 可以选择请求SPEECH_TRANSCRIPTION功能
0 投票
0 回答
13 浏览

node.js - 运行时清除谷歌语音到文本结果

我正在尝试用谷歌语音将 ivr 电话转录为文本,但我无法分离音频,我只收到一个长文本,我想在用户停止通话和 ivr 响应后通过清除结果来删除它。这是我的代码:

0 投票
0 回答
21 浏览

java - 如何在运行时在运行时显示文本,同时在 Java 中使用谷歌语音到文本 API 说话

我正在处理没有对话框的谷歌语音到文本 Api,我想在运行时在文本视图上显示文本,同时说话。有什么办法可以显示文字。

0 投票
0 回答
32 浏览

date - Google STT - 德语 - 完整数字日期未正确转录

我目前正在尝试使用 Google 的德语 STT 引擎。我希望从话语中捕获完整的日期。只要我把月份作为一个词(9 月、10 月……)“Erster Januar 1980”被正确转录,这就可以正常工作。
在德语中,通常不说出月份的名称,而只是说出月份的序数,例如“Erster Erster Neunzehnhundertachtzig”,其中第一个单词是日期,第二个单词是月份,然后是年份。说到这里,谷歌引擎只返回垃圾。我也用 MS Azure 试过了,效果很好。

我现在的问题是:有没有其他人偶然发现这个问题,也许有提示如何解决这个问题?我已经尝试添加一个SpeechContext $FULLDATE,但它没有任何区别。

干杯小号

0 投票
0 回答
101 浏览

python - 谷歌云语音到文本 python 示例不起作用

我试图使用谷歌的这个代码示例:

昨天它工作但由于某种原因现在它不工作,在检查后我意识到问题出 responses = client.streaming_recognize(streaming_config, requests) 在 main 行,但我不知道出了什么问题。

我也尝试了 node js 示例,它工作得很好,所以问题是因为 python 实现。

0 投票
0 回答
166 浏览

google-api - Google Speech to Text API 很慢

我在这里使用“使用 Google 云存储文件转录长音频文件”的指南。

但是使用“enable_automatic_punctuation”的“增强视频”模型时速度很慢。每 10 分钟的音频持续时间大约需要 2.5 分钟。

这是我的配置:

有什么方法可以让我们得到更快的响应。对于 10 分钟持续时间的音频文件,语音识别模型 + NLP 标点符号模型真的需要这么长时间吗? 2 分钟?

0 投票
1 回答
451 浏览

flutter - 如何在 Flutter 的语音转文本 API 中使用本地音频文件而不是 uri?

我正在使用googleapis包中的 Google Speech To Text API。但是我没有找到任何文档(对于 dart 和颤振)解释如何在发送 RecognizeRequest.fromJson 时使用应用程序资产文件夹中存在的本地音频文件作为音频数据。我想知道如何在代码中使用本地文件代替 _json 中的音频内容。提前致谢。

0 投票
0 回答
99 浏览

google-speech-api - 如何提高 Google Speech to Text API 中的标点和类标记的准确性

图 1我使用 Class Token "$OOV_CLASS_ALPHA_SEQUENCE" 后的转录结果

父亲的 [档案]称为Annonymos备忘录 a n n o y m o u s,日期为222019 [ 22 2 2019 ] 电话会议

图 2支持的 Google 类令牌

支持的类令牌

此页面可以显示支持的类标记,用于在gb中使用 Speech-to-Text for English 进行语音适应。

类令牌 描述 口语例子 书面例子
$OOV_CLASS_ALPHANUMERIC_SEQUENCE 一系列字母 [az] 和/或数字。 “abc”
“一二三”
“a b c 一二三”
美国广播公司
123
ABC123
$OOV_CLASS_ALPHA_SEQUENCE 一系列字母 [az]。 “abc”
“cqbc f”
“hqqgwrmy o”
美国广播公司
CQBCF
HQQGWRMYO

图 3标点符号无法识别

我们审阅了索赔书,被告的撇号回复之前

通过在这个场合。停止段落的问题是我们如何进行问号我说我们可以 在理论上用逗号从精神科医生那里获得报告,但他将不得不进行评估。泌尿系统症状括号 它们是近括号,如果有括号,请考虑影响括号

我在提高听写转录的准确性方面遇到了 2 个麻烦。请看我上面附上的图片。

  1. 我使用了带有 Class Token 和 boost 的 Google Speech Adaptation Feature。但仍与图 1 中一样,当拼写名称时,结果并未显示为单词,而是显示为单个字母。在听写中,拼写名称有很多习惯,即使我使用了类标记“$OOV_CLASS_ALPHA_SEQUENCE”,它也没有显示为单词。

  2. 另一个问题是标点符号问题。在听写中,人们说,停止,逗号,问号,括号之类的格式。但是我在我的代码中启用了自动标点符号,但标点符号仍然不正确并显示为 Image3 中的单词。

有什么办法可以改善这些问题。或者我错过了什么。如果是这样,你能告诉我方法吗?非常感谢您提前提供的时间。

谢谢你。