“google-speech-to-text-api”的相关标签问题

0 投票

1 回答

301 浏览

google-cloud-platform - Google Speech Diarization 标签一直在变化

我正在构建一个应用程序，以使用启用了扬声器分类的 Google Speech-To-Text转录实时音频流（有关背景，请参阅先前的问题：1、2、3）。理想情况下，输出应如下所示：

虽然我当前的 Google STT 设置可以相对较好地转录输入音频，但扬声器分类并没有像我预期的那样工作。谷歌会在每次回复中发送完整的文字记录，但每次说话人标签（即说话人 1 和说话人 2）都会因先前识别的文本而改变。我已经实现了 Google 的示例 Python 脚本：

这是第一个响应的示例输出：

但下一个回应给出：

当新音频作为输入到达时，模型是否会不断更新？如果是这样，在一个音频流中创建具有多个扬声器的转录服务的好方法是什么？

我不指望银弹，但希望有人能指出我正确的方向。

2021-03-21T21:31:48.623

0 投票

1 回答

381 浏览

node.js - Node.js 中的 Google Speech-to-Text 引发错误“{ 处的文件不存在，或者它不是文件。ENOENT：没有这样的文件或目录，lstat”

我正在尝试在我的网络应用程序中实现 Google 的 Speech to Text 转录，但遇到了很多麻烦。

我决定从底层开始，看看我是否至少可以实现他们的 node.js 快速入门示例。在下面的两个示例中（一个旨在转录本地音频文件，另一个旨在转录 uri 中的音频），我最终在控制台中遇到了完全相同的错误：

（节点：4836）UnhandledPromiseRejectionWarning：错误：{ 处的文件不存在，或者它不是文件。ENOENT: 没有这样的文件或目录，lstat '[Path to Project Folder]/{'

URI 示例（基于此）

本地音频文件示例（基于此）

我在这里想念什么？提前致谢！

node.js google-cloud-platform google-speech-to-text-api

2021-03-25T13:29:24.103

0 投票

1 回答

152 浏览

google-cloud-platform - 语音转文本和视频智能 SPEECH_TRANSCRIPTION 有什么关系？

我的目标是使用语音到文本模型处理多个视频。

令人困惑的是，谷歌有两种似乎做同样事情的产品。

这些产品之间的主要区别是什么？

谷歌云语音转文本：https ://cloud.google.com/speech-to-text/docs/basics
- Speech-to-Text 具有用于解释音频的“增强视频”模型。
谷歌视频智能：https ://cloud.google.com/video-intelligence/docs/feature-speech-transcription
- VI 可以选择请求SPEECH_TRANSCRIPTION功能

google-cloud-platform speech-to-text google-speech-to-text-api video-intelligence-api

2021-03-25T20:40:05.893

0 投票

0 回答

13 浏览

node.js - 运行时清除谷歌语音到文本结果

我正在尝试用谷歌语音将 ivr 电话转录为文本，但我无法分离音频，我只收到一个长文本，我想在用户停止通话和 ivr 响应后通过清除结果来删除它。这是我的代码：

node.js google-speech-to-text-api

2021-03-29T16:10:56.820

0 投票

0 回答

21 浏览

java - 如何在运行时在运行时显示文本，同时在 Java 中使用谷歌语音到文本 API 说话

我正在处理没有对话框的谷歌语音到文本 Api，我想在运行时在文本视图上显示文本，同时说话。有什么办法可以显示文字。

java android textview google-speech-to-text-api

2021-04-02T12:45:25.820

0 投票

0 回答

32 浏览

date - Google STT - 德语 - 完整数字日期未正确转录

我目前正在尝试使用 Google 的德语 STT 引擎。我希望从话语中捕获完整的日期。只要我把月份作为一个词（9 月、10 月……）“Erster Januar 1980”被正确转录，这就可以正常工作。
在德语中，通常不说出月份的名称，而只是说出月份的序数，例如“Erster Erster Neunzehnhundertachtzig”，其中第一个单词是日期，第二个单词是月份，然后是年份。说到这里，谷歌引擎只返回垃圾。我也用 MS Azure 试过了，效果很好。

我现在的问题是：有没有其他人偶然发现这个问题，也许有提示如何解决这个问题？我已经尝试添加一个SpeechContext $FULLDATE，但它没有任何区别。

干杯小号

date google-cloud-platform transcription google-speech-to-text-api

2021-04-05T11:43:52.450

0 投票

0 回答

101 浏览

python - 谷歌云语音到文本 python 示例不起作用

我试图使用谷歌的这个代码示例：

昨天它工作但由于某种原因现在它不工作，在检查后我意识到问题出 responses = client.streaming_recognize(streaming_config, requests) 在 main 行，但我不知道出了什么问题。

我也尝试了 node js 示例，它工作得很好，所以问题是因为 python 实现。

python google-speech-to-text-api

2021-04-13T09:04:23.850

0 投票

0 回答

166 浏览

google-api - Google Speech to Text API 很慢

我在这里使用“使用 Google 云存储文件转录长音频文件”的指南。

但是使用“enable_automatic_punctuation”的“增强视频”模型时速度很慢。每 10 分钟的音频持续时间大约需要 2.5 分钟。

这是我的配置：

有什么方法可以让我们得到更快的响应。对于 10 分钟持续时间的音频文件，语音识别模型 + NLP 标点符号模型真的需要这么长时间吗？ 2 分钟？

google-api google-api-python-client google-speech-api google-speech-to-text-api

2021-04-25T06:52:56.803

0 投票

1 回答

451 浏览

flutter - 如何在 Flutter 的语音转文本 API 中使用本地音频文件而不是 uri？

我正在使用googleapis包中的 Google Speech To Text API。但是我没有找到任何文档（对于 dart 和颤振）解释如何在发送 RecognizeRequest.fromJson 时使用应用程序资产文件夹中存在的本地音频文件作为音频数据。我想知道如何在代码中使用本地文件代替 _json 中的音频内容。提前致谢。

flutter dart google-api google-speech-to-text-api

2021-05-10T13:08:11.563

0 投票

0 回答

99 浏览

google-speech-api - 如何提高 Google Speech to Text API 中的标点和类标记的准确性

图 1我使用 Class Token "$OOV_CLASS_ALPHA_SEQUENCE" 后的转录结果

父亲的 [档案]称为Annonymos备忘录 a n n o y m o u s，日期为222019 [ 22 2 2019 ] 电话会议

图 2支持的 Google 类令牌

支持的类令牌

此页面可以显示支持的类标记，用于在gb中使用 Speech-to-Text for English 进行语音适应。

类令牌描述口语例子书面例子

$OOV_CLASS_ALPHANUMERIC_SEQUENCE 一系列字母 [az] 和/或数字。 “abc”
“一二三”
“a b c 一二三” 美国广播公司
123
ABC123

$OOV_CLASS_ALPHA_SEQUENCE 一系列字母 [az]。 “abc”
“cqbc f”
“hqqgwrmy o” 美国广播公司
CQBCF
HQQGWRMYO

类令牌	描述	口语例子	书面例子
$OOV_CLASS_ALPHANUMERIC_SEQUENCE	一系列字母 [az] 和/或数字。	“abc” “一二三” “a b c 一二三”	美国广播公司 123 ABC123
$OOV_CLASS_ALPHA_SEQUENCE	一系列字母 [az]。	“abc” “cqbc f” “hqqgwrmy o”	美国广播公司 CQBCF HQQGWRMYO

图 3标点符号无法识别

我们审阅了索赔书，被告的撇号回复之前

通过在这个场合。停止段落的问题是我们如何进行问号我说我们可以在理论上用逗号从精神科医生那里获得报告，但他将不得不进行评估。泌尿系统症状括号它们是近括号，如果有括号，请考虑影响括号

我在提高听写转录的准确性方面遇到了 2 个麻烦。请看我上面附上的图片。

我使用了带有 Class Token 和 boost 的 Google Speech Adaptation Feature。但仍与图 1 中一样，当拼写名称时，结果并未显示为单词，而是显示为单个字母。在听写中，拼写名称有很多习惯，即使我使用了类标记“$OOV_CLASS_ALPHA_SEQUENCE”，它也没有显示为单词。
另一个问题是标点符号问题。在听写中，人们说，停止，逗号，问号，括号之类的格式。但是我在我的代码中启用了自动标点符号为真，但标点符号仍然不正确并显示为 Image3 中的单词。

有什么办法可以改善这些问题。或者我错过了什么。如果是这样，你能告诉我方法吗？非常感谢您提前提供的时间。

谢谢你。

google-speech-api google-speech-to-text-api

2021-05-14T10:01:42.437

问题标签 [google-speech-to-text-api]

支持的类令牌

Reference