5

我正在使用 Microsoft 的认知服务。我有一个音频输入,需要识别多个扬声器及其各自的文本。

据我了解,Speaker Rekognition API 可以识别不同的个人,Bing Speech API 可以将语音转换为文本。但是,要同时执行这两项操作,我需要手动将音频文件拆分为多个片段(基于暂停/静音),然后将音频流发送到各个服务。有更好的方法吗?我应该切换到任何其他生态系统,例如 AWS Lex/Polly 或 Google 的产品?

4

1 回答 1

7

您应该尝试 IBM Watson Speech to Text API。他们有一个名为Speaker Diarization的功能,对您的用例很有用。

更多详细信息: https ://www.ibm.com/blogs/watson/2016/12/look-whos-talking-ibm-debuts-watson-speech-text-speaker-diarization-beta/

于 2017-02-01T16:53:09.040 回答