我正在尝试确定 Azure 是否是满足我转录需求的最佳平台。
我有两个问题——Azure 的 Speech to Text 服务是否提供:
- 接受 Webm 音频作为输入?
- 它是否提供带有时间戳的输出?
我正在尝试确定 Azure 是否是满足我转录需求的最佳平台。
我有两个问题——Azure 的 Speech to Text 服务是否提供:
据我所知,MS 认知服务语音转文本只需要 WAV 或 OGG 音频文件,我认为它不能处理 Webm、MKV 等容器。
我们是一家名为3Scribe的新转录初创公司(我们认为是市场上最准确的),可以处理 Webm 容器作为输入。我们的 JSON 输出有时间戳,并且即将启动我们的自定义输出,所以如果您正在寻找特定的东西,请在我们的支持电子邮件中给我们留言。如果您想注册并让我们知道引用此线程,我可以为您的帐户添加一些额外的信用。
Microsoft 语音 SDK 还支持 webm 容器。请遵循以下示例。请将带有 webm 文件的文件名和格式更改为 AudioStreamContainerFormat.ANY。您还需要在客户端计算机上安装 gstreamer。
顺便问一下,您使用的是哪个平台和哪种语言?
我们还支持带有转录实际偏移量的时间戳。json 输出将类似于 {"Id":"1384bb2080b54ce6bec99e3342092610","RecognitionStatus":"Success","DisplayText":"是什么把你带到了看门人的土地上?","Offset":120100000,"Duration": 24700000}
您可以在其中看到从流开始的偏移量和整个文本的持续时间。