我目前正在评估语音识别 (SR) 技术的 cyrrebt 状态,似乎有不少 API 和服务如雨后春笋般涌现。
我自己对 SR 的经验是,关键字匹配适用于多个说话者,而听写在非常受控的环境中对训练有素的说话者也很有效。这仍然是真的吗?是否有任何好的方法可以对任意音频文件的文本进行语音 - 可能是从音频流中匹配关键字以进行索引,或者可能是尝试完全转录。
有人对细微差别与其他引擎与开源解决方案的比较有任何评论吗?
我目前正在评估语音识别 (SR) 技术的 cyrrebt 状态,似乎有不少 API 和服务如雨后春笋般涌现。
我自己对 SR 的经验是,关键字匹配适用于多个说话者,而听写在非常受控的环境中对训练有素的说话者也很有效。这仍然是真的吗?是否有任何好的方法可以对任意音频文件的文本进行语音 - 可能是从音频流中匹配关键字以进行索引,或者可能是尝试完全转录。
有人对细微差别与其他引擎与开源解决方案的比较有任何评论吗?