我之前一直在使用 IBM Watson 语音转文本服务来转录预先录制的完整音频文件。但是,我现在正在尝试在使用说话者识别功能时进行实时转录。这意味着我不能单独发送每个短文件(以大约 30 秒的时间块录制音频),因为必须维护扬声器的上下文。如何在仍然使用 Python 的同时做到这一点?
问问题
875 次
1 回答
0
您需要使用 WebSocket 进行实时转录。您传入一段音频,Watson 会以转录内容进行响应。您只需要检测静音即可将流分成块。
您还需要指定用于转录的语言,当源音频来自电话时,最好使用窄带模型以获得最佳效果。
IBM® 建议您将宽带模型用于响应式实时应用程序(例如,用于实时语音应用程序)。 参考。
您可以在此链接中查看一个在 Python 中使用 Python 和 Watson STT 的完整示例。此示例使用 Nexmo,但您可以获取在任何应用程序中用于实时记录的逻辑。
- 使用 Watson Speech to Text进行传递- 真正的转录 (Python)。
- IBM Watson Speech to Text的官方文档。
于 2018-02-28T20:40:49.187 回答