4

所以 Vosk-api 是一个出色的离线语音识别器,具有出色的支持,但在本文发布时(2020 年 8 月 14 日)文档非常差(或巧妙地隐藏)

问题是:是否有任何替代google-speech-recognizer功能,允许通过语音适应进行额外的转录改进?

例如

"config": {
    "encoding":"LINEAR16",
    "sampleRateHertz": 8000,
    "languageCode":"en-US",
    "speechContexts": [{
      "phrases": ["weather"]
    }]
}

对于谷歌来说,这个配置意味着短语天气将具有更高的优先级,例如,哪个听起来相同。

还是类令牌?我知道它可能不会在 Vosk for python3 中实现,但仍然......

以下是参考资料:

https://cloud.google.com/speech-to-text/docs/class-tokens


https://cloud.google.com/speech-to-text/docs/speech-adaptation

4

1 回答 1

5

您可以关注此文档以获取有关 Vosk 模型适配的信息:

https://alphacephei.com/vosk/adaptation

基本上有4个级别:

  1. 使用要识别的单词列表更新小型模型
  2. 使用文本中的语言模型离线更新小型模型
  3. 更新大模型内的语言模型和字典
  4. 根据您的数据微调声学模型

该过程不是完全自动化的,但您可以在小组中寻求帮助。

于 2020-08-14T19:36:47.283 回答