问题标签 [google-speech-to-text-api]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
google-cloud-platform - Google Speech Diarization 标签一直在变化
我正在构建一个应用程序,以使用启用了扬声器分类的 Google Speech-To-Text转录实时音频流(有关背景,请参阅先前的问题:1、2、3)。理想情况下,输出应如下所示:
虽然我当前的 Google STT 设置可以相对较好地转录输入音频,但扬声器分类并没有像我预期的那样工作。谷歌会在每次回复中发送完整的文字记录,但每次说话人标签(即说话人 1 和说话人 2)都会因先前识别的文本而改变。我已经实现了 Google 的示例 Python 脚本:
这是第一个响应的示例输出:
但下一个回应给出:
当新音频作为输入到达时,模型是否会不断更新?如果是这样,在一个音频流中创建具有多个扬声器的转录服务的好方法是什么?
我不指望银弹,但希望有人能指出我正确的方向。
node.js - Node.js 中的 Google Speech-to-Text 引发错误“{ 处的文件不存在,或者它不是文件。ENOENT:没有这样的文件或目录,lstat”
我正在尝试在我的网络应用程序中实现 Google 的 Speech to Text 转录,但遇到了很多麻烦。
我决定从底层开始,看看我是否至少可以实现他们的 node.js 快速入门示例。在下面的两个示例中(一个旨在转录本地音频文件,另一个旨在转录 uri 中的音频),我最终在控制台中遇到了完全相同的错误:
(节点:4836)UnhandledPromiseRejectionWarning:错误:{ 处的文件不存在,或者它不是文件。ENOENT: 没有这样的文件或目录,lstat '[Path to Project Folder]/{'
URI 示例(基于此)
本地音频文件示例(基于此)
我在这里想念什么?提前致谢!
google-cloud-platform - 语音转文本和视频智能 SPEECH_TRANSCRIPTION 有什么关系?
我的目标是使用语音到文本模型处理多个视频。
令人困惑的是,谷歌有两种似乎做同样事情的产品。
这些产品之间的主要区别是什么?
谷歌云语音转文本:https ://cloud.google.com/speech-to-text/docs/basics
- Speech-to-Text 具有用于解释音频的“增强视频”模型。
谷歌视频智能:https ://cloud.google.com/video-intelligence/docs/feature-speech-transcription
- VI 可以选择请求
SPEECH_TRANSCRIPTION
功能
- VI 可以选择请求
node.js - 运行时清除谷歌语音到文本结果
我正在尝试用谷歌语音将 ivr 电话转录为文本,但我无法分离音频,我只收到一个长文本,我想在用户停止通话和 ivr 响应后通过清除结果来删除它。这是我的代码:
java - 如何在运行时在运行时显示文本,同时在 Java 中使用谷歌语音到文本 API 说话
我正在处理没有对话框的谷歌语音到文本 Api,我想在运行时在文本视图上显示文本,同时说话。有什么办法可以显示文字。
date - Google STT - 德语 - 完整数字日期未正确转录
我目前正在尝试使用 Google 的德语 STT 引擎。我希望从话语中捕获完整的日期。只要我把月份作为一个词(9 月、10 月……)“Erster Januar 1980”被正确转录,这就可以正常工作。
在德语中,通常不说出月份的名称,而只是说出月份的序数,例如“Erster Erster Neunzehnhundertachtzig”,其中第一个单词是日期,第二个单词是月份,然后是年份。说到这里,谷歌引擎只返回垃圾。我也用 MS Azure 试过了,效果很好。
我现在的问题是:有没有其他人偶然发现这个问题,也许有提示如何解决这个问题?我已经尝试添加一个SpeechContext $FULLDATE
,但它没有任何区别。
干杯小号
python - 谷歌云语音到文本 python 示例不起作用
我试图使用谷歌的这个代码示例:
昨天它工作但由于某种原因现在它不工作,在检查后我意识到问题出
responses = client.streaming_recognize(streaming_config, requests)
在 main 行,但我不知道出了什么问题。
我也尝试了 node js 示例,它工作得很好,所以问题是因为 python 实现。
google-api - Google Speech to Text API 很慢
我在这里使用“使用 Google 云存储文件转录长音频文件”的指南。
但是使用“enable_automatic_punctuation”的“增强视频”模型时速度很慢。每 10 分钟的音频持续时间大约需要 2.5 分钟。
这是我的配置:
有什么方法可以让我们得到更快的响应。对于 10 分钟持续时间的音频文件,语音识别模型 + NLP 标点符号模型真的需要这么长时间吗? 2 分钟?
flutter - 如何在 Flutter 的语音转文本 API 中使用本地音频文件而不是 uri?
我正在使用googleapis包中的 Google Speech To Text API。但是我没有找到任何文档(对于 dart 和颤振)解释如何在发送 RecognizeRequest.fromJson 时使用应用程序资产文件夹中存在的本地音频文件作为音频数据。我想知道如何在代码中使用本地文件代替 _json 中的音频内容。提前致谢。
google-speech-api - 如何提高 Google Speech to Text API 中的标点和类标记的准确性
图 1我使用 Class Token "$OOV_CLASS_ALPHA_SEQUENCE" 后的转录结果
父亲的 [档案]称为Annonymos备忘录
a n n o y m o u s
,日期为222019 [ 22 2 2019 ] 电话会议
支持的类令牌
此页面可以显示支持的类标记,用于在gb中使用 Speech-to-Text for English 进行语音适应。
类令牌 描述 口语例子 书面例子 $OOV_CLASS_ALPHANUMERIC_SEQUENCE 一系列字母 [az] 和/或数字。 “abc”
“一二三”
“a b c 一二三”美国广播公司
123
ABC123$OOV_CLASS_ALPHA_SEQUENCE 一系列字母 [az]。 “abc”
“cqbc f”
“hqqgwrmy o”美国广播公司
CQBCF
HQQGWRMYO
图 3标点符号无法识别
我们审阅了索赔书,被告的撇号回复之前
通过在这个场合。停止段落的问题是我们如何进行问号我说我们可以 在理论上用逗号从精神科医生那里获得报告,但他将不得不进行评估。泌尿系统症状括号 它们是近括号,如果有括号,请考虑影响括号
我在提高听写转录的准确性方面遇到了 2 个麻烦。请看我上面附上的图片。
我使用了带有 Class Token 和 boost 的 Google Speech Adaptation Feature。但仍与图 1 中一样,当拼写名称时,结果并未显示为单词,而是显示为单个字母。在听写中,拼写名称有很多习惯,即使我使用了类标记“$OOV_CLASS_ALPHA_SEQUENCE”,它也没有显示为单词。
另一个问题是标点符号问题。在听写中,人们说,停止,逗号,问号,括号之类的格式。但是我在我的代码中启用了自动标点符号为真,但标点符号仍然不正确并显示为 Image3 中的单词。
有什么办法可以改善这些问题。或者我错过了什么。如果是这样,你能告诉我方法吗?非常感谢您提前提供的时间。
谢谢你。