python-3.x - 用于语音识别的 Vosk-api python。类似谷歌的语音适应功能？

Question

所以 Vosk-api 是一个出色的离线语音识别器，具有出色的支持，但在本文发布时（2020 年 8 月 14 日）文档非常差（或巧妙地隐藏）

问题是：是否有任何替代google-speech-recognizer功能，允许通过语音适应进行额外的转录改进？

例如

"config": {
    "encoding":"LINEAR16",
    "sampleRateHertz": 8000,
    "languageCode":"en-US",
    "speechContexts": [{
      "phrases": ["weather"]
    }]
}

对于谷歌来说，这个配置意味着短语天气将具有更高的优先级，例如，哪个听起来相同。

还是类令牌？我知道它可能不会在 Vosk for python3 中实现，但仍然......

以下是参考资料：

https://cloud.google.com/speech-to-text/docs/class-tokens

https://cloud.google.com/speech-to-text/docs/speech-adaptation

score 5 · Accepted Answer

您可以关注此文档以获取有关 Vosk 模型适配的信息：

https://alphacephei.com/vosk/adaptation

基本上有4个级别：

使用要识别的单词列表更新小型模型
使用文本中的语言模型离线更新小型模型
更新大模型内的语言模型和字典
根据您的数据微调声学模型

该过程不是完全自动化的，但您可以在小组中寻求帮助。

python-3.x - 用于语音识别的 Vosk-api python。类似谷歌的语音适应功能？

1 回答 1

Related

Reference