0

我的目标是使用语音到文本模型处理多个视频。

令人困惑的是,谷歌有两种似乎做同样事情的产品。

这些产品之间的主要区别是什么?

  1. 谷歌云语音转文本:https ://cloud.google.com/speech-to-text/docs/basics

    • Speech-to-Text 具有用于解释音频的“增强视频”模型。
  2. 谷歌视频智能:https ://cloud.google.com/video-intelligence/docs/feature-speech-transcription

    • VI 可以选择请求SPEECH_TRANSCRIPTION功能
4

1 回答 1

1

两者的主要区别在于使用的输入。Speech to Text API 仅接受音频输入,而 Video Intelligence 接受视频输入。

正如您在问题“Speech to Text has an enhance video model”中提到的,这意味着它有一个旨在转录源自视频文件的音频的模型。这意味着原始文件是视频,然后转换为音频。如本教程中所见,视频在转录之前已转换为音频。

如果您想直接将音频内容转录成文本,我建议使用 Video Intelligence API。您可以按照本教程了解如何使用 Video Intelligence API 转录文本。

于 2021-03-26T01:06:17.447 回答