问题标签 [google-speech-to-text-api]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
google-speech-api - 谷歌语音转文本
有人知道 Google STT 的最低限制吗?我在互联网上找不到东西我试图测试 STT 一个简短的样本,我说一个词,但它没有用
google-api - Google 语音转文本 API 不返回任何内容,甚至不返回错误
我试图从一个随机的 youtube 视频中获取文本只是为了试用 API,但它没有返回任何内容。使用此存储库中的示例文件“audio.raw”时,它确实有效。 https://github.com/GoogleCloudPlatform/golang-samples/tree/master/speech/testdata
我正在使用的 youtube 视频:https ://www.youtube.com/watch?v= liAsT4DqalQ 英文很清晰,我在本地拥有的音频版本很清晰。该文件的类型是 webm 也许这就是问题所在,我尝试使用 m4a 文件但没有运气:x
我的代码就像 async simple 中的代码一样,真正奇怪的部分是我没有收到任何错误...
python - 如何将 OGG_OPUS 输入音频流转换为 Google Speech-to-Text API 可接受的字节流格式?
上下文:我有一个原始格式为 OGG_OPUS 的录制音频流的 URL。我将其音频从 URL 转换为字节流(根据 Google API 的要求 - https://cloud.google.com/speech-to-text/docs/reference/rest/v1p1beta1/RecognitionAudio)。
当我将此字节流提供给 Google Speech-to-text API 时,我收到一个空响应!!
问题:
- 为什么 Google API 在这里返回 Null 响应?
- Google API 真的支持 OGG_OPUS 格式的音频输入吗?
代码块
gcloud - Gcloud 错误 401:请求具有无效的身份验证凭据
我正在做一个需要访问 Gcloud 服务帐户的项目。但是,我一直遇到身份验证问题。这是我的命令提示符下的以下错误:
我的命令:
输出:
目前,我做了以下事情:我设置了我的环境变量“GOOGLE_APPLICATION_CREDENTIALS”来保存我的服务帐户的 JSON 密钥文件的路径,我在密钥文件所在的目录中打开了我的 cmd,我运行了命令。还有什么我想念的吗?
我关注的文档来自https://cloud.google.com/docs/authentication/production#windows
node.js - 谷歌语音算法。测试 Beta 功能
在 Google 语音算法页面 ( https://cloud.google.com/speech-to-text ) 上有一个“演示”部分,可以在其中上传文件并检查结果。使用 beta 功能我能够获得更好的结果,但我无法使用@google-cloud/speech
库为同一个视频文件获得类似的结果。
这些是它在演示部分中显示的配置:
它在模型选项卡下显示的最佳结果Video
,所以我假设default
模型应该替换为video
,尽管它也无济于事。
这是测试功能的代码:
有谁知道什么可以有所作为?谢谢
authentication - 代码 401:请求具有无效的身份验证凭据。gcloud 语音转文本
我收到“请求的身份验证凭据无效”错误。这就是我所做的:
在 Windows 机器上。
做“gcloud auth application-default print-access-token”会给我一个回应。我还设置了 GOOGLE_APPLICATION_CREDENTIALS。
这里有什么问题?
python - 如何识别段落中从音频转换为python中文本的句子(语音到文本)
这是我的代码
将 Speech_recognition 导入为 sr 导入操作系统
def speech_to_text(speech_to_text_name):
#调用识别器() r = sr.Recognizer()
我也需要将句子分开。我怎样才能做到这一点??
android - Unity Android - 反序列化 JSON 凭证数据时出错 - Google STT API
在设置了我知道是 100% 正确的凭据后,我将问题归结为SpeechClientBuilder
类的函数.Build()
,因为我检查了并且它们在编辑器上运行代码时工作。
python - 如何正确使用 for 循环以从 Flask 中转录的 .wav 文件中获取全文
我正在尝试使用 for 循环从音频文件中获取内容来遍历文件的内容,但我得到的是文本的最后一行。我确定问题出在 main.py 的主代码中,我不知道可能出了什么问题。这是一些代码: