websocket - 使用 Watson SDK 执行连续语音转文本

Question

我之前一直在使用 IBM Watson 语音转文本服务来转录预先录制的完整音频文件。但是，我现在正在尝试在使用说话者识别功能时进行实时转录。这意味着我不能单独发送每个短文件（以大约 30 秒的时间块录制音频），因为必须维护扬声器的上下文。如何在仍然使用 Python 的同时做到这一点？

score 0 · Accepted Answer

您需要使用 WebSocket 进行实时转录。您传入一段音频，Watson 会以转录内容进行响应。您只需要检测静音即可将流分成块。

您还需要指定用于转录的语言，当源音频来自电话时，最好使用窄带模型以获得最佳效果。

IBM® 建议您将宽带模型用于响应式实时应用程序（例如，用于实时语音应用程序）。参考。

您可以在此链接中查看一个在 Python 中使用 Python 和 Watson STT 的完整示例。此示例使用 Nexmo，但您可以获取在任何应用程序中用于实时记录的逻辑。

1 回答 1