speech-recognition - 在语音识别期间获得替代建议

Question

我想使用离线语音进行文本识别，主要是德语。

特别是，我想使用Mozilla DeepSpeech（百度 DeepSpeech 架构的 TensorFlow 实现），但我担心音频输入的音频质量不足以产生低错误率（WER - 单词错误率）。

（英文）示例：

说话者说“知道”，但引擎可能已经理解“流动”或“展示”或“开始”或“知道”。

我想[flow, show, go, know]从引擎中恢复过来，以便之后我可以手动决定哪个建议最适合。我怎样才能得到这个？

其他语音转文本引擎是否提供这种可能性？

score 2 · Accepted Answer

DeepSpeech 已更新版本。为了获得更好的推理结果，您需要遵循他们的说明和建议，例如，您的输入音频文件应为 16000 Hz、单声道和 16 位。音频重采样可能会影响推理的质量，请记住这一点。我个人使用SoX进行重采样，但还有其他选项samplerate。此外，他们的论坛上有很多很好的建议。

有一个名为SpeechRecognition的 Python 库。他们有一些用于语音到文本的离线模型和在线 API 服务。

1 回答 1