2

我正在尝试构建一个基于 Mozilla DeepSpeech 的自适应语音识别系统(这是 DeepSpeech 论文的 TensorFlow 实现)

这个想法是,

  1. 我们将对特定声音的模型进行预训练。然后,保存模型 + 创建检查点。
  2. 保存的模型用于将语音转录为文本。
  3. 如果用户注意到某些内容被错误地转录,他可以就他刚刚录制的声音的正确文本提供反馈。
  4. 这形成了一个新的训练样本。模型恢复到之前的检查点,然后在新样本上进行训练。(我们还会使用一些数据增强技术来增加样本数量)
  5. 现在生成的模型应该更好地用于用户语音/发音
  6. 从第 3 步开始重复,如果有不正确的转录

这是使用检查点的正确方法吗?我的意思是,每次我在新样本上训练时,我都会恢复到最后一个检查点并用新样本替换完整的训练数据。

任何建议,将不胜感激!

提前致谢!

4

0 回答 0