我想使用离线语音进行文本识别,主要是德语。
特别是,我想使用Mozilla DeepSpeech(百度 DeepSpeech 架构的 TensorFlow 实现),但我担心音频输入的音频质量不足以产生低错误率(WER - 单词错误率)。
(英文)示例:
说话者说“知道”,但引擎可能已经理解“流动”或“展示”或“开始”或“知道”。
我想[flow, show, go, know]
从引擎中恢复过来,以便之后我可以手动决定哪个建议最适合。我怎样才能得到这个?
其他语音转文本引擎是否提供这种可能性?