google-cloud-platform - 语音转文本和视频智能 SPEECH_TRANSCRIPTION 有什么关系？

Question

我的目标是使用语音到文本模型处理多个视频。

令人困惑的是，谷歌有两种似乎做同样事情的产品。

这些产品之间的主要区别是什么？

谷歌云语音转文本：https ://cloud.google.com/speech-to-text/docs/basics
- Speech-to-Text 具有用于解释音频的“增强视频”模型。
谷歌视频智能：https ://cloud.google.com/video-intelligence/docs/feature-speech-transcription
- VI 可以选择请求SPEECH_TRANSCRIPTION功能

score 1 · Accepted Answer

两者的主要区别在于使用的输入。Speech to Text API 仅接受音频输入，而 Video Intelligence 接受视频输入。

正如您在问题“Speech to Text has an enhance video model”中提到的，这意味着它有一个旨在转录源自视频文件的音频的模型。这意味着原始文件是视频，然后转换为音频。如本教程中所见，视频在转录之前已转换为音频。

如果您想直接将音频内容转录成文本，我建议使用 Video Intelligence API。您可以按照本教程了解如何使用 Video Intelligence API 转录文本。

1 回答 1