0

我正在使用 MS Translator Speech WebSocket API 进行实时语音识别和翻译。问题是有时识别的文本没有标点符号(逗号、句号等)。否则,转录的文本看起来不错。我还收到了带有合成翻译的 MP3。

它看起来完全随机,我可以多次发送相同的音频,有些回复有标点符号,有些没有。我正在以正确的格式和近乎实时的速率发送音频,例如,我每 ~ 100 毫秒发送 100 毫秒样本。公认的语言是西班牙语。

这是一个常见问题还是有其他问题?

4

2 回答 2

1

切换到 Speech Preview API 解决了缺少的标点符号。目前只有 SDK,原始 WebSocket API 尚未记录。我已经成功连接并使用了 WS API,更多信息在另一个 SO question中。

于 2018-09-24T12:09:47.660 回答
0

部分识别和最终识别有不同的响应类型。当语音继续出现时,您会收到部分识别,并在话语结束时收到最后一个。部分结果可能缺少标点和大小写,最终结果将有大小写和标点。如果您想忽略没有大小写和标点符号的响应,您希望过滤以仅查看最终响应。

于 2018-09-21T21:34:17.537 回答