azure - Azure 的 Speech to Text 服务是否接受 Webm 音频并提供带有时间戳的输出？

Question

我正在尝试确定 Azure 是否是满足我转录需求的最佳平台。

我有两个问题——Azure 的 Speech to Text 服务是否提供：

接受 Webm 音频作为输入？
它是否提供带有时间戳的输出？

score 0 · Accepted Answer

据我所知，MS 认知服务语音转文本只需要 WAV 或 OGG 音频文件，我认为它不能处理 Webm、MKV 等容器。

我们是一家名为3Scribe的新转录初创公司（我们认为是市场上最准确的），可以处理 Webm 容器作为输入。我们的 JSON 输出有时间戳，并且即将启动我们的自定义输出，所以如果您正在寻找特定的东西，请在我们的支持电子邮件中给我们留言。如果您想注册并让我们知道引用此线程，我可以为您的帐户添加一些额外的信用。

score 0 · Accepted Answer

Microsoft 语音 SDK 还支持 webm 容器。请遵循以下示例。请将带有 webm 文件的文件名和格式更改为 AudioStreamContainerFormat.ANY。您还需要在客户端计算机上安装 gstreamer。

https://github.com/Azure-Samples/cognitive-services-speech-sdk/blob/770e1094a94ab67febeb737f2a4fb75c591b8231/samples/csharp/sharedcontent/console/speech_recognition_samples.cs#L248

顺便问一下，您使用的是哪个平台和哪种语言？

我们还支持带有转录实际偏移量的时间戳。json 输出将类似于 {"Id":"1384bb2080b54ce6bec99e3342092610","RecognitionStatus":"Success","DisplayText":"是什么把你带到了看门人的土地上？","Offset":120100000,"Duration": 24700000}

您可以在其中看到从流开始的偏移量和整个文本的持续时间。

azure - Azure 的 Speech to Text 服务是否接受 Webm 音频并提供带有时间戳的输出？

2 回答 2

Related

Reference