0

我正在尝试确定 Azure 是否是满足我转录需求的最佳平台。

我有两个问题——Azure 的 Speech to Text 服务是否提供:

  1. 接受 Webm 音频作为输入?
  2. 它是否提供带有时间戳的输出?
4

2 回答 2

0

据我所知,MS 认知服务语音转文本只需要 WAV 或 OGG 音频文件,我认为它不能处理 Webm、MKV 等容器。

我们是一家名为3Scribe的新转录初创公司(我们认为是市场上最准确的),可以处理 Webm 容器作为输入。我们的 JSON 输出有时间戳,并且即将启动我们的自定义输出,所以如果您正在寻找特定的东西,请在我们的支持电子邮件中给我们留言。如果您想注册并让我们知道引用此线程,我可以为您的帐户添加一些额外的信用。

于 2021-05-31T19:24:23.433 回答
0

Microsoft 语音 SDK 还支持 webm 容器。请遵循以下示例。请将带有 webm 文件的文件名和格式更改为 AudioStreamContainerFormat.ANY。您还需要在客户端计算机上安装 gstreamer。

https://github.com/Azure-Samples/cognitive-services-speech-sdk/blob/770e1094a94ab67febeb737f2a4fb75c591b8231/samples/csharp/sharedcontent/console/speech_recognition_samples.cs#L248

顺便问一下,您使用的是哪个平台和哪种语言?

我们还支持带有转录实际偏移量的时间戳。json 输出将类似于 {"Id":"1384bb2080b54ce6bec99e3342092610","RecognitionStatus":"Success","DisplayText":"是什么把你带到了看门人的土地上?","Offset":120100000,"Duration": 24700000}

您可以在其中看到从流开始的偏移量和整个文本的持续时间。

于 2021-06-01T17:28:48.340 回答