我的目标是使用语音到文本模型处理多个视频。
令人困惑的是,谷歌有两种似乎做同样事情的产品。
这些产品之间的主要区别是什么?
谷歌云语音转文本:https ://cloud.google.com/speech-to-text/docs/basics
- Speech-to-Text 具有用于解释音频的“增强视频”模型。
谷歌视频智能:https ://cloud.google.com/video-intelligence/docs/feature-speech-transcription
- VI 可以选择请求
SPEECH_TRANSCRIPTION
功能
- VI 可以选择请求