所以 Vosk-api 是一个出色的离线语音识别器,具有出色的支持,但在本文发布时(2020 年 8 月 14 日)文档非常差(或巧妙地隐藏)
问题是:是否有任何替代google-speech-recognizer功能,允许通过语音适应进行额外的转录改进?
例如
"config": {
"encoding":"LINEAR16",
"sampleRateHertz": 8000,
"languageCode":"en-US",
"speechContexts": [{
"phrases": ["weather"]
}]
}
对于谷歌来说,这个配置意味着短语天气将具有更高的优先级,例如,哪个听起来相同。
还是类令牌?我知道它可能不会在 Vosk for python3 中实现,但仍然......
以下是参考资料:
https://cloud.google.com/speech-to-text/docs/class-tokens
https://cloud.google.com/speech-to-text/docs/speech-adaptation