我正在尝试音频文件中的“Bing Speech To Text API”,其中包含在呼叫中心回答客户的人与呼叫呼叫中心以解决他的疑问的客户之间的真实对话。因此,这些音频有两个人在说话,有时在客户等待支持人员的答复时有很长的静音期。这些音频有 5 到 10 分钟长。
我的疑问是:
使用 Microsoft 认知服务将此类音频翻译成文本的最佳方法是什么?
除了 Bing Speech To Text,我还必须使用哪些 API?
在将音频发送到 Bing Speech To Text 之前,我是否必须剪切或转换音频?
我之所以这么问,是因为 Bing Speech to text API 返回的文本与音频内容非常非常非常非常不同。这是不可能使用或理解的。但是,当然,我认为我做错了。
拜托,你能向我解释一下处理这样的音频文件的最佳策略吗?
我会很高兴得到任何帮助。最好的问候,