1

我之前一直在使用 IBM Watson 语音转文本服务来转录预先录制的完整音频文件。但是,我现在正在尝试在使用说话者识别功能时进行实时转录。这意味着我不能单独发送每个短文件(以大约 30 秒的时间块录制音频),因为必须维护扬声器的上下文。如何在仍然使用 Python 的同时做到这一点?

4

1 回答 1

0

您需要使用 WebSocket 进行实时转录。您传入一段音频,Watson 会以转录内容进行响应。您只需要检测静音即可将流分成块。

您还需要指定用于转录的语言,当源音频来自电话时,最好使用窄带模型以获得最佳效果。

IBM® 建议您将宽带模型用于响应式实时应用程序(例如,用于实时语音应用程序)。 参考

您可以在此链接中查看一个在 Python 中使用 Python 和 Watson STT 的完整示例。此示例使用 Nexmo,但您可以获取在任何应用程序中用于实时记录的逻辑。

于 2018-02-28T20:40:49.187 回答