2

我玩过用于将语音转录成书面文字的 WebkitSpeechRecognition 服务(https://developer.mozilla.org/en-US/docs/Web/API/Web_Speech_API)。在目前的状态下,它是一个不错的玩具,但还不够准确,无法派上用场。然而,它擅长检测停顿并至少正确地使用几个词来模糊地了解用户所说的内容。

我觉得有用的是能够捕获原始音频。这样,我可以将其与转录文本一起显示,以便用户可以手动重播未正确转录的句子。

不幸的是,我没有看到它在 API 中的任何地方公开。有没有办法做到这一点?如果没有,是否有一种替代解决方案不是我可以为此使用的黑客和/或 CPU 消耗量不大的替代解决方案,例如捕获Navigator.getUseMedia()?如果是这样,我现在是否必须重写暂停检测和拆分自己的逻辑?

4

0 回答 0