问题标签 [google-speech-to-text-api]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
google-speech-to-text-api - 您如何训练 Google Speech-to-text 识别外国名字
我正在总结一些我在爱尔兰神话中阅读的文本,但 Google 的 Speech-to-text API 无法识别外来词。所以像“Diarmud”、“Grannie”、“geasa”、“gilla”、“decaire”、“Oisin”这样的名字没有被正确转录。当然,有一个简单的解决方法:只需说一些其他单词,然后对计算机进行编程以始终将这些单词替换为爱尔兰对应词。不过,我想知道是否有更好的解决方案。
python - 语音识别 Python 有奇怪的请求错误
使用以下代码进行语音识别根本不起作用
这是完整的错误,似乎请求只是失败了,但是如果我上传音频文件作为源,同样的代码似乎可以正常工作。我已经通过 sr.Microphone 进行了检查,默认选项也正确链接到我的实际麦克风...
google-cloud-platform - Google Cloud 403 错误拥有项目的结算帐户在状态下被禁用
我在 Google Cloud 上启用了一个项目、计费和 Cloud Speech to Text API。然后我下载了一个 .json 文件。然后我尝试在 PyCharm 中执行这个基本代码。
但是,我不断收到此错误:
我还向 Google Cloud 客户支持确认了计费功能已按原样启用。有关如何解决此错误的任何建议?
express - 已修复:multipart/form-data html 表单将 .flac 文件发送到 Google Speech-to-Text API,将文件上传为 x-flac?
修复
我不完全确定为什么会这样,但我的导师建议进行此更改:设置 gzip:false。现在,这成功地从存储桶中转录了短音频和长音频。这可能是内容编码的问题。
上一期
我正在 Node.js 中为编码训练营项目制作语音到文本的快速应用程序。目前,我遇到了 multer 问题,或者文件上传到我的谷歌“存储桶”的过程。我可以手动将 .flac 文件上传到 Google 存储桶,并且文件类型保持为“audio/flac”。我可以将这些文件发送到 API 以进行非常准确的转录。但是,当通过我的多部分表单和异步函数 uploadFile 发送文件时,对象将作为“audio/x-flac”上传到 Google 存储桶,并且无法播放或转录。在我的前端,用户应该会看到一个表单,他们可以在其中提交 .flac 文件。我的问题是,我需要采取哪些步骤来确保文件在上传到 Google 存储桶时保持“audio/flac”与“audio/x-flac”?
以下是该表单在前端的工作方式:
这是我的后端的外观:
如果有人遇到过类似问题并成功解决了这些问题,我很乐意听取您的意见。对我的代码或我提出这个问题的方式的反馈表示赞赏,因为我是社区的新手!:-)
flutter - 使用 Google 的语音转文本 beta API 检测语言
我正在尝试通过 Google 的 API 处理音频并获得所使用的语言。我不需要实际的成绩单。我正在使用颤振,并且查看了网站上的各种文档和问题。
显然,原来的 v1 API似乎不支持检测语言功能。因此,我查看了v2beta API,它似乎支持检测语言功能,并根据此处提供替代语言代码的支持选项。
然而,我能得到的唯一例子是原始的 v1 API,显然有些函数与 beta API 有点不同。
下面是我使用原始 API 文档和 StackOverflow 上的答案汇总的代码。这不适用于 beta API。
问题如下:
原始 API 不支持“alternativeLanguageCodes”的配置选项,因此似乎不支持检测语言。
Beta 版 API 的功能似乎与原始 API 不同,我只能找到原始 API 的示例。
我已经查看了 beta API 本身,并且在最后一个小时一直在查看相同的东西,但仍然无法弄清楚如何使它们工作。
有人可以帮助我吗?谢谢!
google-cloud-platform - Google Cloud Speech-to-text 非常不准确,最后一个结果包含所有其他结果,并且仅在最后一个结果中包含 speakerTag
我正在使用命令行使用谷歌语音到文本并得到奇怪的结果
这是我的命令
这是音频文件: https ://dcs.megaphone.fm/LIT9020259030.mp3?key=4b567156fd7bdfaa90992664d4bc667c
问题是:
- 结果非常非常糟糕且不准确
- 最后一个结果包含所有其他结果的组合
- SpeakerTag 仅出现在最后一个结果中
- 我只为扬声器 1 获得了扬声器标签
这是结果json:
python - 在 Python 中从麦克风录制音频
我正在尝试在 python 中创建一个虚拟助手,它使用语音识别。虽然在运行程序时,它没有接受任何语音输入,尽管没有错误。我的麦克风连接正确,我很确定代码有问题。请帮我解决一下这个。
ffmpeg - WAV 文件上的 Google Speech to Text 提供
我正在使用 Google Speech to Text API 将 WAV 文件转换为文本。当我播放 WAV 文件时,它工作正常,但是当我运行 Google Speech To Text API 时,我收到此错误:
当我尝试使用ffmpeg
工具分析文件时,出现以下错误:
我错过了什么?
python - 如何从谷歌语音 api 获取每个话语的结果并将每个音频话语块分别保存为 wav 文件?
我正在使用下面的 python 脚本从实时流音频输入中获取来自谷歌语音 API 的预测。
问题是,我需要谷歌语音 API 对每个话语进行预测,然后将每个话语的音频保存到磁盘上。
我不确定如何修改脚本以保存每个话语的实时音频并打印每个话语的结果而不是连续预测。
angular - 使用 Twilio Media Streams 和 Google Speech-to-Text 编写实时转录电话时出错
我们引用了这个链接 - twilio.com/blog/live-trancribing-phone-calls-using-twilio-media-streams-and-google-speech-text。其中下面提到的代码部分给了我们错误,
错误:
请指导我们解决此错误!