我正在处理语音识别任务。到目前为止,我一直在使用Google Cloud Speech Recognition API(Python 中)并取得了不错的效果。API 返回一个置信度值以及转录文本的每一块。如文档中所述,置信度是一个介于 0 和 1 之间的数字,但我没有找到任何关于 Google 的 API 如何派生该数字的更深入解释,因此我假设它以某种方式来自进行识别的神经网络。
我想采取的下一步是制作我自己的(离线)自动语音识别程序,我发现pyKaldi应该可以胜任这项任务。我还没有开始编程,但我想事先知道(出于研究目的)——Kaldi 能否像 Google Speech-to-Text API 一样返回一些类似的信心值?这种“信心”究竟是什么,它是如何计算的?