python - Kaldi 是否返回任何识别置信度参数，类似于 Google Speech-To-Text API？

Question

我正在处理语音识别任务。到目前为止，我一直在使用Google Cloud Speech Recognition API（Python 中）并取得了不错的效果。API 返回一个置信度值以及转录文本的每一块。如文档中所述，置信度是一个介于 0 和 1 之间的数字，但我没有找到任何关于 Google 的 API 如何派生该数字的更深入解释，因此我假设它以某种方式来自进行识别的神经网络。

我想采取的下一步是制作我自己的（离线）自动语音识别程序，我发现pyKaldi应该可以胜任这项任务。我还没有开始编程，但我想事先知道（出于研究目的）——Kaldi 能否像 Google Speech-to-Text API 一样返回一些类似的信心值？这种“信心”究竟是什么，它是如何计算的？

score 1 · Accepted Answer

是的，pyKaldi 支持以最小贝叶斯风险 (MBR) 计算的置信度值（单词置信度分数）。您将在文档中找到所有必要的信息。这是模块描述的链接：

https://pykaldi.github.io/api/kaldi.lat.html?highlight=mbr#module-kaldi.lat.sausages

顾名思义，它是一个置信度值，但它并不表示从音频块序列中派生（或在概率设置中给定）的单词的结果文本输出是正确的“可能性”有多大。在我看来，表达性或意义有点模糊，取决于模型的质量和训练数据（噪声、混响等）。比较备选方案很有意义，告诉你价值较高的那个更有可能是正确的。这反过来又提出了将哪个距离称为显着差异的问题。单个置信度值不会告诉您任何信息，您也不能仅根据它们的置信度值比较两个不同的识别器模型。微软将其称为“相反，置信度分数提供了一种机制，用于比较给定输入的多个识别备选方案的相对准确性。这有助于返回最准确的识别结果。”

python - Kaldi 是否返回任何识别置信度参数，类似于 Google Speech-To-Text API？

1 回答 1

Related

Reference