1

许多语音转文本服务(例如 Google 的)提供了置信度分数。至少对于谷歌来说,它介于 0 和 1 之间,但显然不是特定转录正确的概率,因为替代转录的置信度加起来超过 1。此外,有时置信度较高的结果排名较低。

那么,它是什么?语音识别社区中是否存在公认的“置信度分数”含义?我已经看到对最小贝叶斯风险的引用,但即使这是他们正在做的事情,这也不能回答这个问题,因为这取决于辅助损失函数的选择。

4

1 回答 1

0

但显然不是特定转录正确的概率,因为替代转录的置信度加起来超过 1

统计算法永远不会给你概率的值,它们会给你估计。在某些情况下,估计可能不准确,更多的是平均而言它们接近理想值。信心必须校准。你可以检查一些理论

语音识别置信度的校准 于冬,高级会员,IEEE,李金宇,会员,IEEE,邓立,研究员,IE https://www.microsoft.com/en-us/research/wp-content/uploads/ 2011/01/ConfidenceCalibration.pdf

语音识别社区中是否存在公认的“置信度分数”含义?

不是真的,每个人都使用自己的算法。从简单的贝叶斯风险(这根本不是最好的估计)到更高级的方法。真的不可能知道谷歌做了什么。在 Kaldi 中也有一个很好的算法实现:https ://github.com/kaldi-asr/kaldi/blob/master/egs/ami/s5/local/confidence_calibration.sh

于 2020-04-20T21:55:04.350 回答