0

我试图了解 Kaldi 的内部工作原理,但是无法理解kaldi 文档的技术细节。

我想首先对各种对象有一个高层次的理解,以帮助消化所呈现的内容。我特别想知道 .tree、fina.mdl 和 HCLG.fst 文件是什么,生成它们需要什么以及如何使用它们。

我隐约明白(如果我错了,请纠正我):

  • final.mdl 是声学模型,包含从一个电话转换到另一个电话的概率。
  • HCLG.fst 是一个图,给定一系列音素,它将根据词典、语法和语言模型生成最可能的单词序列。
  • 解码图是生成 HCLG.fst 的术语
  • 不太清楚添加自循环是什么,它类似于 Kleene 运算符吗?
  • lattice 包含话语的替代词序列。

我知道有很多内容要介绍,但感谢您提供任何帮助!

4

2 回答 2

1

你最好一次问一个问题。此外,最好先阅读本书来理解理论,而不是试图一次掌握所有内容。

final.mdl 是声学模型,包含从一个电话转换到另一个电话的概率

声学模型模型 final.mdl 的主要组成部分是声学检测器,而不是转换概率。它要么是一组用于手机的 GMM,要么是一个神经网络。声学模型还包含从一种 hmm 状态到另一种状态的转换概率,这为单个电话构建了 HMM 模型。电话之间的转换概率在图表 HCLG.fst 中编码

HCLG.fst 是一个图,给定一系列音素,它将根据词典、语法和语言模型生成最可能的单词序列。

不完全是,HCLG fst 是一个有限状态转换器,它为您提供基于词典和语言模型的状态序列概率。电话序列并没有真正用于图形,它们被用于图形构造。

不太清楚添加自循环是什么,它类似于 Kleene 运算符吗?

Speech HMM 对每个状态都有自循环,它允许状态持续几个输入帧。您可以在书中找到 HMM 拓扑以查看循环。

lattice 包含话语的替代词序列。

这是正确的,但它还包含时间和声学和语言模型分数。

于 2019-04-13T22:34:52.333 回答
0

但是如何估计 HCLG 的转移概率(即“H”和“C”中的)?我明白了,因为 G 只是一个语言模型,单词之间的转换概率可以从语料库中估计,但我不明白“H”(将 HMM 状态转换为上下文相关音素的转换器)的转换概率如何估计我是否有一个用于声学模型的 DNN 并使用 GMM-HMM 的对齐对其进行训练,因为 DNN 的输出是带有发射概率的 softmax。转移概率是简单地取自 GMM-HMM 模型,还是像发射概率一样在训练期间更新?

于 2020-08-27T23:32:21.097 回答